論文の概要: Escaping the sentence-level paradigm in machine translation
- arxiv url: http://arxiv.org/abs/2304.12959v2
- Date: Thu, 16 May 2024 13:32:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 19:43:51.629277
- Title: Escaping the sentence-level paradigm in machine translation
- Title(参考訳): 機械翻訳における文レベルパラダイムの回避
- Authors: Matt Post, Marcin Junczys-Dowmunt,
- Abstract要約: 文書テキスト機械翻訳における多くの作業は存在するが、様々な理由により達成できなかった。
特殊アーキテクチャの作業とは対照的に,標準トランスフォーマーアーキテクチャは十分であることを示す。
本稿では,文書システム間でより識別しやすい,既存のコントラスト指標の生成的変種を提案する。
- 参考スコア(独自算出の注目度): 9.676755606927435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is well-known that document context is vital for resolving a range of translation ambiguities, and in fact the document setting is the most natural setting for nearly all translation. It is therefore unfortunate that machine translation -- both research and production -- largely remains stuck in a decades-old sentence-level translation paradigm. It is also an increasingly glaring problem in light of competitive pressure from large language models, which are natively document-based. Much work in document-context machine translation exists, but for various reasons has been unable to catch hold. This paper suggests a path out of this rut by addressing three impediments at once: what architectures should we use? where do we get document-level information for training them? and how do we know whether they are any good? In contrast to work on specialized architectures, we show that the standard Transformer architecture is sufficient, provided it has enough capacity. Next, we address the training data issue by taking document samples from back-translated data only, where the data is not only more readily available, but is also of higher quality compared to parallel document data, which may contain machine translation output. Finally, we propose generative variants of existing contrastive metrics that are better able to discriminate among document systems. Results in four large-data language pairs (DE$\rightarrow$EN, EN$\rightarrow$DE, EN$\rightarrow$FR, and EN$\rightarrow$RU) establish the success of these three pieces together in improving document-level performance.
- Abstract(参考訳): 文書の文脈は、翻訳のあいまいさを解消するのに不可欠であり、実際、文書の設定は、ほぼ全ての翻訳にとって最も自然な設定である。
したがって、機械翻訳(研究と生産の両方)が数十年前の文レベルの翻訳パラダイムに留まっているのは残念である。
また、ドキュメントベースの大規模言語モデルによる競合的なプレッシャーに照らされつつある問題でもある。
文書・テキスト機械翻訳における多くの作業は存在するが、様々な理由により達成できなかった。
本稿では,3つの障害に一度に対処することで,この制約から抜け出す道を提案する。
ドキュメントレベルの情報をどこで取得すればよいのか?
どうすれば良いのか わかるのでしょうか?
特殊アーキテクチャの作業とは対照的に,標準的な Transformer アーキテクチャでは十分なキャパシティがあれば十分であることを示す。
次に、後方翻訳データのみから文書サンプルを取り出すことにより、トレーニングデータの問題に対処する。
最後に,文書システム間でより識別し易い既存のコントラスト指標の生成変種を提案する。
大規模な4つの言語ペア(DE$\rightarrow$EN, EN$\rightarrow$DE, EN$\rightarrow$FR, EN$\rightarrow$RU)の結果は、ドキュメントレベルのパフォーマンスを改善するために、これら3つを一緒に成功させる。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Recovering document annotations for sentence-level bitext [18.862295675088056]
我々は、ドイツ語、フランス語、スペイン語、イタリア語、ポーランド語、ポルトガル語の3つのデータセットの文書レベルの情報を再構築する。
本稿では,従来のbitextフィルタに代わる文書レベルのフィルタリング手法を提案する。
最後に、これらの長い文脈でモデルをトレーニングし、文章レベルの翻訳を劣化させることなく文書レベルの翻訳を改善することを示す。
論文 参考訳(メタデータ) (2024-06-06T08:58:14Z) - Document-Level Language Models for Machine Translation [37.106125892770315]
文書レベルのモノリンガルデータを利用した文脈対応翻訳システムを構築した。
モデル組み合わせの最近の進歩を活用することで、既存のアプローチを改善します。
ほとんどのシナリオでは、バックトランスレーションは、翻訳システムを再トレーニングするコストを犠牲にして、よりよい結果をもたらす。
論文 参考訳(メタデータ) (2023-10-18T20:10:07Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Learn To Remember: Transformer with Recurrent Memory for Document-Level
Machine Translation [14.135048254120615]
バニラ変換器にリカレントメモリユニットを導入し、文と前のコンテキスト間の情報交換をサポートする。
我々は文書レベルの機械翻訳のための3つの一般的なデータセットの実験を行い、我々のモデルは文レベルのベースラインに対して平均0.91 s-BLEUの改善を行っている。
論文 参考訳(メタデータ) (2022-05-03T14:55:53Z) - Diving Deep into Context-Aware Neural Machine Translation [36.17847243492193]
本稿では,4つの領域における文書レベルのNMTモデルの性能を解析する。
ドキュメントレベルのNMTに最適なアプローチはひとつもありません。
論文 参考訳(メタデータ) (2020-10-19T13:23:12Z) - Rethinking Document-level Neural Machine Translation [73.42052953710605]
現在のモデルでは、ドキュメントレベルの翻訳に十分な能力がありますか?
適切なトレーニング技術を持つオリジナルのトランスフォーマーは,2000語の長さであっても,文書翻訳の強力な結果が得られることを観察する。
論文 参考訳(メタデータ) (2020-10-18T11:18:29Z) - Document-level Neural Machine Translation with Document Embeddings [82.4684444847092]
この研究は、複数の形式の文書埋め込みの観点から、詳細な文書レベルのコンテキストを活用することに重点を置いている。
提案する文書認識NMTは,大域的および局所的な文書レベルの手がかりをソース端に導入することにより,Transformerベースラインを強化するために実装されている。
論文 参考訳(メタデータ) (2020-09-16T19:43:29Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。