論文の概要: Do Context-Aware Translation Models Pay the Right Attention?
- arxiv url: http://arxiv.org/abs/2105.06977v1
- Date: Fri, 14 May 2021 17:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 12:55:58.555792
- Title: Do Context-Aware Translation Models Pay the Right Attention?
- Title(参考訳): 文脈対応翻訳モデルは適切な注意を払うか?
- Authors: Kayo Yin, Patrick Fernandes, Danish Pruthi, Aditi Chaudhary, Andr\'e
F. T. Martins, Graham Neubig
- Abstract要約: コンテキスト対応機械翻訳モデルは文脈情報を活用するように設計されているが、しばしば失敗する。
本稿では,人間の翻訳者が曖昧な単語を解くために使用する文脈について述べる。
SCAT(Supporting Context for Ambiguous Translations)は、14K翻訳のコンテキストワードをサポートする新しい英仏データセットです。
SCATを用いて,支援語の位置的特徴と語彙的特徴をあいまいにするために使用される文脈を詳細に分析する。
- 参考スコア(独自算出の注目度): 61.25804242929533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context-aware machine translation models are designed to leverage contextual
information, but often fail to do so. As a result, they inaccurately
disambiguate pronouns and polysemous words that require context for resolution.
In this paper, we ask several questions: What contexts do human translators use
to resolve ambiguous words? Are models paying large amounts of attention to the
same context? What if we explicitly train them to do so? To answer these
questions, we introduce SCAT (Supporting Context for Ambiguous Translations), a
new English-French dataset comprising supporting context words for 14K
translations that professional translators found useful for pronoun
disambiguation. Using SCAT, we perform an in-depth analysis of the context used
to disambiguate, examining positional and lexical characteristics of the
supporting words. Furthermore, we measure the degree of alignment between the
model's attention scores and the supporting context from SCAT, and apply a
guided attention strategy to encourage agreement between the two.
- Abstract(参考訳): コンテキスト対応機械翻訳モデルは文脈情報を活用するように設計されているが、しばしば失敗する。
結果として、解決のために文脈を必要とする代名詞と多義語を不正確に曖昧にする。
本稿では,人間の翻訳者が曖昧な単語を解くために使用する文脈について述べる。
モデルは同じ文脈に多くの注意を払っていますか?
それらを明示的にトレーニングすればどうでしょう?
そこで本研究では,14K翻訳の文脈語をサポートする英語・フランス語のデータセットであるSCAT(Supporting Context for Ambiguous Translations)を紹介する。
SCATを用いて,支援語の位置的特徴と語彙的特徴をあいまいにするために使用される文脈を詳細に分析する。
さらに,モデルの注意点とSCATからの支持状況との整合度を測定し,両者の合意を促進するための注意戦略を適用した。
関連論文リスト
- That was the last straw, we need more: Are Translation Systems Sensitive
to Disambiguating Context? [64.38544995251642]
我々は、源泉に存在している意味的あいまいさ(本研究における英語)について研究する。
我々は、リテラルと図形の両方にオープンなイディオムに焦点を当てている。
現在のMTモデルは、たとえ文脈が比喩的解釈を示しているとしても、英語のイディオムを文字通りに翻訳する。
論文 参考訳(メタデータ) (2023-10-23T06:38:49Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Improving Long Context Document-Level Machine Translation [51.359400776242786]
翻訳の一貫性と凝集性を改善するために、ニューラルネットワーク翻訳(NMT)のための文書レベルのコンテキストが不可欠である。
文書レベルのNMTに関する多くの著作が出版されているが、ほとんどの作品では局所的な文脈に制限されている。
本稿では、メモリ消費を同時に低減しつつ、シーケンスの最も関連性の高い部分に注意を集中させる制約付注意変種を提案する。
論文 参考訳(メタデータ) (2023-06-08T13:28:48Z) - PiC: A Phrase-in-Context Dataset for Phrase Understanding and Semantic
Search [25.801066428860242]
文脈ウィキペディアのページを伴って28Kの名詞句のデータセットであるPiCを提案する。
データセットのトレーニングによってランキングモデルの精度が向上し、質問回答モデル(QA)がほぼ人間に近い精度に大幅に向上することがわかった。
論文 参考訳(メタデータ) (2022-07-19T04:45:41Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Measuring and Increasing Context Usage in Context-Aware Machine
Translation [64.5726087590283]
機械翻訳モデルによるコンテキストの使用を定量的にするために、新しいメトリクス、条件付き相互情報を導入します。
次に,コンテキスト認識モデルによってコンテキストの使用量を増やすために,コンテキスト認識ワードドロップアウトという,新しい簡易なトレーニング手法を導入する。
論文 参考訳(メタデータ) (2021-05-07T19:55:35Z) - Picking BERT's Brain: Probing for Linguistic Dependencies in
Contextualized Embeddings Using Representational Similarity Analysis [13.016284599828232]
動詞の埋め込みが動詞の主語をエンコードする程度を調べ、代名詞の埋め込みが代名詞の先行語をエンコードし、全文表現が文の見出し語をエンコードする。
いずれの場合も、BERTの文脈的埋め込みは言語依存を反映しており、BERTは言語依存の少ない制御を符号化するよりも、これらの依存をより大きく符号化していることを示す。
論文 参考訳(メタデータ) (2020-11-24T13:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。