論文の概要: The ELITR ECA Corpus
- arxiv url: http://arxiv.org/abs/2109.07351v1
- Date: Wed, 15 Sep 2021 15:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 18:41:10.980615
- Title: The ELITR ECA Corpus
- Title(参考訳): ELITR ECAコーパス
- Authors: Philip Williams and Barry Haddow
- Abstract要約: 我々はBleualignとともに自動翻訳を使用して、506の翻訳方向の並列文対を同定する。
結果は264k文書対と41.9M文対からなるコーパスである。
- 参考スコア(独自算出の注目度): 5.248750132326314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the ELITR ECA corpus, a multilingual corpus derived from
publications of the European Court of Auditors. We use automatic translation
together with Bleualign to identify parallel sentence pairs in all 506
translation directions. The result is a corpus comprising 264k document pairs
and 41.9M sentence pairs.
- Abstract(参考訳): 欧州監査裁判所の出版物から派生した多言語コーパスであるelitr ecaコーパスを提案する。
自動翻訳とbleualignを用いて,506種類の翻訳方向の並列文対を識別する。
264k文書対と41.9M文対からなるコーパスである。
関連論文リスト
- The Russian Legislative Corpus [0.0]
コーパスは281,413通のテキスト(176,523,268通のトークン)とメタデータを収集する。
コーパスには、最小限の事前処理を備えた原文と、モルフォシンタクティックマークアップを用いた言語解析のためのバージョンの2つのバージョンがある。
論文 参考訳(メタデータ) (2024-06-07T11:38:12Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - RuCoCo: a new Russian corpus with coreference annotation [69.3939291118954]
我々は、コア参照アノテーションを持つ新しいコーパス、ロシアコア参照コーパス(RuCoCo)を提案する。
RuCoCoにはロシア語のニューステキストが含まれており、一部はスクラッチから注釈付けされ、残りは人間のアノテーションによって機械生成のアノテーションが洗練されている。
コーパスのサイズは100万語で、約15万人が言及している。
論文 参考訳(メタデータ) (2022-06-10T07:50:09Z) - Czech Grammar Error Correction with a Large and Diverse Corpus [64.94696028072698]
文法的誤り訂正(GEC)のための注釈付きチェコ語コーパスを大規模かつ多種多様に導入する。
Grammar Error Correction Corpus for Czech (GECCC)は、非ネイティブ話者によって書かれた高いエラー密度エッセイからウェブサイトテキストまで、さまざまな4つのドメインを提供している。
我々は、トランスフォーマーをベースとしたいくつかのチェコのGECシステムを比較し、将来の研究に強力なベースラインを設定している。
論文 参考訳(メタデータ) (2022-01-14T18:20:47Z) - A Novel Corpus of Discourse Structure in Humans and Computers [55.74664144248097]
約27,000節からなる445の人文・コンピュータ生成文書からなる新しいコーパスを提示する。
コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2を用いて生成された文書を含んでいる。
論文 参考訳(メタデータ) (2021-11-10T20:56:08Z) - Icelandic Parallel Abstracts Corpus [0.0]
アイスランドのパラレル抽象コーパス(IPAC)を新たに発表した。
それらのテキストは、アイスランドの大学の学生のすべての記録、論文、最終プロジェクトを保持するSkemmanリポジトリから収集された。
コーパスは、Bleualignを用いたNMTモデルから、両方の翻訳方向の文レベルBLEUスコアに基づいて整列された。
論文 参考訳(メタデータ) (2021-08-11T15:47:07Z) - Persian Rhetorical Structure Theory [2.610470075814367]
我々は、修辞論の枠組みで構築されたペルシア語のための談話注釈コーパスを提示する。
私たちのコーパスは150のジャーナリストのテキストで構成されており、各テキストは平均約400語である。
テキストレベルの談話はゴールドセグメンテーションを用いて訓練されており,DPLP談話バンク上に構築されている。
論文 参考訳(メタデータ) (2021-06-25T18:15:47Z) - CEREC: A Corpus for Entity Resolution in Email Conversations [1.7056768055368383]
メール会話におけるエンティティ解決のための最初の大規模コーパス(CEREC)を提案する。
コーパスは、Eron Email Corpusの6001のメールスレッドで構成され、36,448のメールメッセージと60,383のエンティティコア参照チェーンを含んでいる。
生成したコーパス上の4つのベースラインの異なる特徴と性能を評価する実験を行った。
論文 参考訳(メタデータ) (2021-05-21T23:40:12Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - FT Speech: Danish Parliament Speech Corpus [21.190182627955817]
本稿では,デンマーク議会の会議記録から作成した音声コーパスであるFT Speechを紹介する。
コーパスには、合計434人の話者による1,800時間以上の音声の書き起こしが含まれている。
これは、デンマークの既存の公用語コーパスよりも、持続時間、語彙、自然発話の量において著しく大きい。
論文 参考訳(メタデータ) (2020-05-25T19:51:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。