論文の概要: Improving Word Sense Disambiguation in Neural Machine Translation with
Salient Document Context
- arxiv url: http://arxiv.org/abs/2311.15507v1
- Date: Mon, 27 Nov 2023 03:05:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:16:01.243235
- Title: Improving Word Sense Disambiguation in Neural Machine Translation with
Salient Document Context
- Title(参考訳): 高度文書文脈を用いたニューラルマシン翻訳における単語感覚の曖昧さ解消
- Authors: Elijah Rippeth, Marine Carpuat, Kevin Duh, Matt Post
- Abstract要約: 語彙的曖昧さは機械翻訳(mt)における困難かつ普及的な問題である
ニューラルmtに少量の外部コンテキストを組み込むことで、翻訳のあいまいさを解決するためのシンプルでスケーラブルなアプローチを導入する。
本手法は,強文レベルのベースラインと同等の文書レベルのベースラインよりも曖昧なソース語を翻訳する。
- 参考スコア(独自算出の注目度): 30.461643690171258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lexical ambiguity is a challenging and pervasive problem in machine
translation (\mt). We introduce a simple and scalable approach to resolve
translation ambiguity by incorporating a small amount of extra-sentential
context in neural \mt. Our approach requires no sense annotation and no change
to standard model architectures. Since actual document context is not available
for the vast majority of \mt training data, we collect related sentences for
each input to construct pseudo-documents. Salient words from pseudo-documents
are then encoded as a prefix to each source sentence to condition the
generation of the translation. To evaluate, we release \docmucow, a challenge
set for translation disambiguation based on the English-German \mucow
\cite{raganato-etal-2020-evaluation} augmented with document IDs. Extensive
experiments show that our method translates ambiguous source words better than
strong sentence-level baselines and comparable document-level baselines while
reducing training costs.
- Abstract(参考訳): 語彙的あいまいさは機械翻訳(英語版)(\mt)における困難かつ普及的な問題である。
ニューラルネットワークに少量の外部コンテキストを組み込むことで、翻訳曖昧性を解決するためのシンプルでスケーラブルなアプローチを導入する。
私たちのアプローチでは、意味のあるアノテーションや標準モデルアーキテクチャの変更は不要です。
実際の文書コンテキストは \mt トレーニングデータの大部分では利用できないため、入力毎に関連する文を収集して擬似文書を作成する。
擬似文書からの敬語は、翻訳の生成を条件として各原文に接頭辞として符号化される。
評価のために,文書IDを付加した英語-ドイツ語の \mucow \cite{raganato-etal-2020-evaluation" に基づく翻訳曖昧化のための課題セットである \docmucow をリリースする。
広範な実験により,強い文レベルのベースラインや比較文書レベルのベースラインよりも曖昧なソース単語を翻訳し,学習コストを低減できることを示した。
関連論文リスト
- Recovering document annotations for sentence-level bitext [18.862295675088056]
我々は、ドイツ語、フランス語、スペイン語、イタリア語、ポーランド語、ポルトガル語の3つのデータセットの文書レベルの情報を再構築する。
本稿では,従来のbitextフィルタに代わる文書レベルのフィルタリング手法を提案する。
最後に、これらの長い文脈でモデルをトレーニングし、文章レベルの翻訳を劣化させることなく文書レベルの翻訳を改善することを示す。
論文 参考訳(メタデータ) (2024-06-06T08:58:14Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Improving Long Context Document-Level Machine Translation [51.359400776242786]
翻訳の一貫性と凝集性を改善するために、ニューラルネットワーク翻訳(NMT)のための文書レベルのコンテキストが不可欠である。
文書レベルのNMTに関する多くの著作が出版されているが、ほとんどの作品では局所的な文脈に制限されている。
本稿では、メモリ消費を同時に低減しつつ、シーケンスの最も関連性の高い部分に注意を集中させる制約付注意変種を提案する。
論文 参考訳(メタデータ) (2023-06-08T13:28:48Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - Escaping the sentence-level paradigm in machine translation [9.676755606927435]
文書テキスト機械翻訳における多くの作業は存在するが、様々な理由により達成できなかった。
特殊アーキテクチャの作業とは対照的に,標準トランスフォーマーアーキテクチャは十分であることを示す。
本稿では,文書システム間でより識別しやすい,既存のコントラスト指標の生成的変種を提案する。
論文 参考訳(メタデータ) (2023-04-25T16:09:02Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Word-level Human Interpretable Scoring Mechanism for Novel Text
Detection Using Tsetlin Machines [16.457778420360537]
新規性への貢献度に応じて個々の単語を評価するためのTsetlin マシンアーキテクチャを提案する。
本手法はtm節で捉えた言語パターンを用いて,新しい文書の記述を符号化する。
次に、この記述を採用し、単語がドキュメントの新規作成にどれだけ貢献しているかを測定します。
論文 参考訳(メタデータ) (2021-05-10T23:41:14Z) - Document Graph for Neural Machine Translation [42.13593962963306]
文書は, 距離に関係なく, 関連コンテキストを関連づけるグラフとして表現できることを示す。
IWSLT English- French, Chinese- English, WMT English-German and Opensubtitle English- Russian などの様々なNMTベンチマークの実験では、文書グラフの使用により翻訳品質が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-12-07T06:48:59Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。