論文の概要: Enhanced Simultaneous Machine Translation with Word-level Policies
- arxiv url: http://arxiv.org/abs/2310.16417v1
- Date: Wed, 25 Oct 2023 07:10:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 16:05:02.459562
- Title: Enhanced Simultaneous Machine Translation with Word-level Policies
- Title(参考訳): 単語レベルポリシーを用いた同時機械翻訳の強化
- Authors: Kang Kim and Hankyu Cho
- Abstract要約: 本稿では,サブワードレベルで考案されたポリシーが,ワードレベルで運用するポリシーよりも優れていることを示す。
本稿では,言語モデル(LM)を用いたSiMTモデルの強化手法を提案する。
- 参考スコア(独自算出の注目度): 2.12121796606941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen remarkable advances in the field of Simultaneous
Machine Translation (SiMT) due to the introduction of innovative policies that
dictate whether to READ or WRITE at each step of the translation process.
However, a common assumption in many existing studies is that operations are
carried out at the subword level, even though the standard unit for input and
output in most practical scenarios is typically at the word level. This paper
demonstrates that policies devised and validated at the subword level are
surpassed by those operating at the word level, which process multiple subwords
to form a complete word in a single step. Additionally, we suggest a method to
boost SiMT models using language models (LMs), wherein the proposed word-level
policy plays a vital role in addressing the subword disparity between LMs and
SiMT models. Code is available at https://github.com/xl8-ai/WordSiMT.
- Abstract(参考訳): 近年, 同時機械翻訳(SiMT)の分野では, 翻訳プロセスの各段階において, READ か WRITE かを規定する革新的政策の導入により, 顕著な進歩を遂げている。
しかし、既存の多くの研究で共通する仮定は、ほとんどの実践的なシナリオにおける入力と出力の標準単位が通常、ワードレベルであるにもかかわらず、サブワードレベルで操作が実行されるということである。
本稿では,サブワードレベルで考案・検証されたポリシーが,複数のサブワードを処理して1つのステップで完全な単語を形成するワードレベルで動作しているポリシーよりも優れていることを示す。
さらに、言語モデル(lms)を用いたsimtモデルを強化する手法を提案し、提案する単語レベルのポリシーが、lmsモデルとsimtモデルのサブワード格差に対処する上で重要な役割を担っている。
コードはhttps://github.com/xl8-ai/WordSiMTで入手できる。
関連論文リスト
- Meta-Task Prompting Elicits Embeddings from Large Language Models [54.757445048329735]
本稿では,新しい教師なしテキスト埋め込み手法であるMeta-Task Prompting with Explicit One-Word Limitationを紹介する。
モデル微調整を必要とせずに,大規模言語モデルから高品質な文埋め込みを生成する。
提案法は,多種多様なシナリオにまたがって生成を組み込む汎用的で資源効率のよい手法を提供する。
論文 参考訳(メタデータ) (2024-02-28T16:35:52Z) - SiLLM: Large Language Models for Simultaneous Machine Translation [41.303764786790616]
同時機械翻訳(SiMT)は、原文を読みながら翻訳を生成する。
既存のSiMT手法では、ポリシーを同時に決定し、翻訳を生成するために単一のモデルを採用している。
我々は2つのサブタスクを別々のエージェントに委譲するSiLLMを提案する。
論文 参考訳(メタデータ) (2024-02-20T14:23:34Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Unsupervised Simplification of Legal Texts [0.0]
法律テキスト(USLT)の教師なし簡易化手法を提案する。
USLTは複雑な単語を置換し、長い文を分割することでドメイン固有のTSを実行する。
我々は,USLTがテキストの簡潔さを保ちながら,最先端のドメイン汎用TSメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-01T15:58:12Z) - Unsupervised Attention-based Sentence-Level Meta-Embeddings from
Contextualised Language Models [15.900069711477542]
本稿では,文脈適応型単語埋め込みモデルを独立に訓練した文レベルのメタ埋め込み学習手法を提案する。
提案手法は教師なしで,特定の下流タスクとは無関係である。
実験の結果,提案手法は従来提案した文レベルのメタ埋め込み法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-16T08:20:24Z) - Breaking Character: Are Subwords Good Enough for MRLs After All? [36.11778282905458]
単語ピースの代わりに文字列よりもBERTスタイルの言語モデルを事前学習する。
我々は,3つの高度に複雑で曖昧なMRLのサブワードをベースとした,TavBERTと呼ばれるモデルと,現代のPLMを比較した。
これらの結果から,TavBERTは表層タスクを軽度に改善するのに対し,サブワードベースのPLMは意味タスクの処理性能が著しく向上することがわかった。
論文 参考訳(メタデータ) (2022-04-10T18:54:43Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Document-level Neural Machine Translation with Document Embeddings [82.4684444847092]
この研究は、複数の形式の文書埋め込みの観点から、詳細な文書レベルのコンテキストを活用することに重点を置いている。
提案する文書認識NMTは,大域的および局所的な文書レベルの手がかりをソース端に導入することにより,Transformerベースラインを強化するために実装されている。
論文 参考訳(メタデータ) (2020-09-16T19:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。