論文の概要: Recovering document annotations for sentence-level bitext
- arxiv url: http://arxiv.org/abs/2406.03869v1
- Date: Thu, 6 Jun 2024 08:58:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 15:39:42.184571
- Title: Recovering document annotations for sentence-level bitext
- Title(参考訳): 文レベルのbitextのための文書アノテーションの復元
- Authors: Rachel Wicks, Matt Post, Philipp Koehn,
- Abstract要約: 我々は、ドイツ語、フランス語、スペイン語、イタリア語、ポーランド語、ポルトガル語の3つのデータセットの文書レベルの情報を再構築する。
本稿では,従来のbitextフィルタに代わる文書レベルのフィルタリング手法を提案する。
最後に、これらの長い文脈でモデルをトレーニングし、文章レベルの翻訳を劣化させることなく文書レベルの翻訳を改善することを示す。
- 参考スコア(独自算出の注目度): 18.862295675088056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data availability limits the scope of any given task. In machine translation, historical models were incapable of handling longer contexts, so the lack of document-level datasets was less noticeable. Now, despite the emergence of long-sequence methods, we remain within a sentence-level paradigm and without data to adequately approach context-aware machine translation. Most large-scale datasets have been processed through a pipeline that discards document-level metadata. In this work, we reconstruct document-level information for three (ParaCrawl, News Commentary, and Europarl) large datasets in German, French, Spanish, Italian, Polish, and Portuguese (paired with English). We then introduce a document-level filtering technique as an alternative to traditional bitext filtering. We present this filtering with analysis to show that this method prefers context-consistent translations rather than those that may have been sentence-level machine translated. Last we train models on these longer contexts and demonstrate improvement in document-level translation without degradation of sentence-level translation. We release our dataset, ParaDocs, and resulting models as a resource to the community.
- Abstract(参考訳): データ可用性は、任意のタスクの範囲を制限する。
機械翻訳では、過去のモデルはより長いコンテキストを扱うことができないため、文書レベルのデータセットの欠如は目立たなかった。
現在、長いシーケンス法が出現しているにもかかわらず、我々は文レベルのパラダイムに留まり、文脈対応機械翻訳に適切にアプローチするためのデータがない。
ほとんどの大規模データセットは、ドキュメントレベルのメタデータを捨てるパイプラインを通じて処理されている。
本研究では,ドイツ語,フランス語,スペイン語,イタリア語,ポーランド語,ポルトガル語の3つの大データセット(ParaCrawl,News Commentary,Europarl)について,文書レベルの情報を再構成する。
次に,従来のbitextフィルタに代わる文書レベルのフィルタリング手法を提案する。
本手法は,文レベルの機械翻訳よりも文脈整合翻訳の方が好ましいことを示す。
最後に、これらの長い文脈でモデルをトレーニングし、文章レベルの翻訳を劣化させることなく文書レベルの翻訳を改善することを示す。
データセット、ParaDocs、結果のモデルをコミュニティにリソースとしてリリースしています。
関連論文リスト
- Document-Level Language Models for Machine Translation [37.106125892770315]
文書レベルのモノリンガルデータを利用した文脈対応翻訳システムを構築した。
モデル組み合わせの最近の進歩を活用することで、既存のアプローチを改善します。
ほとんどのシナリオでは、バックトランスレーションは、翻訳システムを再トレーニングするコストを犠牲にして、よりよい結果をもたらす。
論文 参考訳(メタデータ) (2023-10-18T20:10:07Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - Escaping the sentence-level paradigm in machine translation [9.676755606927435]
文書テキスト機械翻訳における多くの作業は存在するが、様々な理由により達成できなかった。
特殊アーキテクチャの作業とは対照的に,標準トランスフォーマーアーキテクチャは十分であることを示す。
本稿では,文書システム間でより識別しやすい,既存のコントラスト指標の生成的変種を提案する。
論文 参考訳(メタデータ) (2023-04-25T16:09:02Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Learn To Remember: Transformer with Recurrent Memory for Document-Level
Machine Translation [14.135048254120615]
バニラ変換器にリカレントメモリユニットを導入し、文と前のコンテキスト間の情報交換をサポートする。
我々は文書レベルの機械翻訳のための3つの一般的なデータセットの実験を行い、我々のモデルは文レベルのベースラインに対して平均0.91 s-BLEUの改善を行っている。
論文 参考訳(メタデータ) (2022-05-03T14:55:53Z) - Context-aware Decoder for Neural Machine Translation using a Target-side
Document-Level Language Model [12.543106304662059]
本稿では,文書レベルの言語モデルをデコーダに組み込むことで,文レベルの翻訳モデルを文脈認識モデルに変換する手法を提案する。
我々のデコーダは文レベルのパラレルコーパスとモノリンガルコーパスのみに基づいて構築されている。
理論的観点からは、この研究の核となる部分は、文脈と現在の文間のポイントワイドな相互情報を用いた文脈情報の新しい表現である。
論文 参考訳(メタデータ) (2020-10-24T08:06:18Z) - Rethinking Document-level Neural Machine Translation [73.42052953710605]
現在のモデルでは、ドキュメントレベルの翻訳に十分な能力がありますか?
適切なトレーニング技術を持つオリジナルのトランスフォーマーは,2000語の長さであっても,文書翻訳の強力な結果が得られることを観察する。
論文 参考訳(メタデータ) (2020-10-18T11:18:29Z) - Document-level Neural Machine Translation with Document Embeddings [82.4684444847092]
この研究は、複数の形式の文書埋め込みの観点から、詳細な文書レベルのコンテキストを活用することに重点を置いている。
提案する文書認識NMTは,大域的および局所的な文書レベルの手がかりをソース端に導入することにより,Transformerベースラインを強化するために実装されている。
論文 参考訳(メタデータ) (2020-09-16T19:43:29Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。