論文の概要: Wait-info Policy: Balancing Source and Target at Information Level for
Simultaneous Machine Translation
- arxiv url: http://arxiv.org/abs/2210.11220v1
- Date: Thu, 20 Oct 2022 12:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 13:30:04.503895
- Title: Wait-info Policy: Balancing Source and Target at Information Level for
Simultaneous Machine Translation
- Title(参考訳): wait-info policy: 同時機械翻訳のための情報レベルにおけるソースとターゲットのバランス
- Authors: Shaolei Zhang, Shoutao Guo, Yang Feng
- Abstract要約: 同時機械翻訳(SiMT)は、ソース入力を受信しながら翻訳を出力する。
情報レベルでソースとターゲットのバランスをとるためのWait-infoポリシーを提案する。
- 参考スコア(独自算出の注目度): 17.802607889752736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous machine translation (SiMT) outputs the translation while
receiving the source inputs, and hence needs to balance the received source
information and translated target information to make a reasonable decision
between waiting for inputs or outputting translation. Previous methods always
balance source and target information at the token level, either directly
waiting for a fixed number of tokens or adjusting the waiting based on the
current token. In this paper, we propose a Wait-info Policy to balance source
and target at the information level. We first quantify the amount of
information contained in each token, named info. Then during simultaneous
translation, the decision of waiting or outputting is made based on the
comparison results between the total info of previous target outputs and
received source inputs. Experiments show that our method outperforms strong
baselines under and achieves better balance via the proposed info.
- Abstract(参考訳): 同時機械翻訳(simt)は、ソース入力を受信しながら翻訳を出力し、受信したソース情報と翻訳対象情報とのバランスをとり、入力を待つか、あるいは翻訳を出力するかを合理的に決定する必要がある。
以前の方法は、常にトークンレベルでソースとターゲットの情報をバランスさせ、固定数のトークンを直接待つか、現在のトークンに基づいて待機を調整します。
本稿では,情報レベルでソースとターゲットのバランスをとるためのWait-infoポリシーを提案する。
まず、各トークンに含まれる情報量、名前付き情報を定量化する。
そして、同時翻訳中に、前回の目標出力の総情報と受信したソース入力との比較結果に基づいて、待機又は出力の決定を行う。
実験により,提案手法が強いベースラインを上回っており,提案する情報によりバランスが良くなることを示す。
関連論文リスト
- Language Model is a Branch Predictor for Simultaneous Machine
Translation [73.82754138171587]
翻訳遅延を低減するため,SiMTタスクに分岐予測手法を組み込むことを提案する。
言語モデルを分岐予測器として利用し,潜在的な分岐方向を予測する。
実際のソース語が予測されたソース語から逸脱すると、実際のソース語を使用して出力を復号し、予測された出力を置き換える。
論文 参考訳(メタデータ) (2023-12-22T07:32:47Z) - Learning Optimal Policy for Simultaneous Machine Translation via Binary
Search [17.802607889752736]
同時機械翻訳(SiMT)は、原文を読みながら翻訳を出力し始める。
ポリシーは、各ターゲットトークンの翻訳中に読み込まれるソーストークンの数を決定する。
本稿では,二分探索により最適ポリシーをオンラインで構築する手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T07:03:06Z) - Original or Translated? On the Use of Parallel Data for Translation
Quality Estimation [81.27850245734015]
並列データと実QEデータの間には,大きなギャップがある。
並列データの場合、それは無差別であり、翻訳文はソースまたはターゲットサイドで発生する可能性がある。
パラレルコーパスのソース元部分の使用は、そのターゲット元よりも一貫して優れています。
論文 参考訳(メタデータ) (2022-12-20T14:06:45Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z) - Information-Transport-based Policy for Simultaneous Translation [21.03142288187605]
同時翻訳(ST)は、ソース入力を受けながら翻訳を出力するので、ターゲットトークンを翻訳するか、次のソーストークンを待つかを判断するポリシーが必要である。
本稿では,ITST(Information-Transport-based Simultaneous Translation)を提案する。
テキスト間STと音声間ST(ストリーミング音声翻訳)の2つのタスクの実験は、ITTが強いベースラインを上回り、最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-10-22T05:26:45Z) - PreQuEL: Quality Estimation of Machine Translation Outputs in Advance [32.922128367314194]
PreQuELシステムは、実際の翻訳とは無関係に、ある文がどの程度翻訳されるかを予測する。
タスクのベースラインモデルを開発し,その性能を解析する。
本手法は,品質評価タスクの性能向上にも有効であることを示す。
論文 参考訳(メタデータ) (2022-05-18T18:55:05Z) - Conditional Bilingual Mutual Information Based Adaptive Training for
Neural Machine Translation [66.23055784400475]
トークンレベルの適応トレーニングアプローチはトークンの不均衡問題を緩和することができる。
条件付きバイリンガル相互情報(CBMI)という目標コンテキスト対応メトリックを提案する。
CBMIは、事前の統計計算なしで、モデルトレーニング中に効率的に計算することができる。
論文 参考訳(メタデータ) (2022-03-06T12:34:10Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Improving Gender Translation Accuracy with Filtered Self-Training [14.938401898546548]
機械翻訳システムは、性別が文脈から明確である場合でも、しばしば誤った性別を出力する。
性別不明瞭な入力に対してジェンダー翻訳精度を向上させるためのジェンダーフィルターによる自己訓練手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T18:05:29Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。