論文の概要: Information-Transport-based Policy for Simultaneous Translation
- arxiv url: http://arxiv.org/abs/2210.12357v1
- Date: Sat, 22 Oct 2022 05:26:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:23:33.546491
- Title: Information-Transport-based Policy for Simultaneous Translation
- Title(参考訳): 情報伝達に基づく同時翻訳政策
- Authors: Shaolei Zhang, Yang Feng
- Abstract要約: 同時翻訳(ST)は、ソース入力を受けながら翻訳を出力するので、ターゲットトークンを翻訳するか、次のソーストークンを待つかを判断するポリシーが必要である。
本稿では,ITST(Information-Transport-based Simultaneous Translation)を提案する。
テキスト間STと音声間ST(ストリーミング音声翻訳)の2つのタスクの実験は、ITTが強いベースラインを上回り、最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 21.03142288187605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous translation (ST) outputs translation while receiving the source
inputs, and hence requires a policy to determine whether to translate a target
token or wait for the next source token. The major challenge of ST is that each
target token can only be translated based on the current received source
tokens, where the received source information will directly affect the
translation quality. So naturally, how much source information is received for
the translation of the current target token is supposed to be the pivotal
evidence for the ST policy to decide between translating and waiting. In this
paper, we treat the translation as information transport from source to target
and accordingly propose an Information-Transport-based Simultaneous Translation
(ITST). ITST quantifies the transported information weight from each source
token to the current target token, and then decides whether to translate the
target token according to its accumulated received information. Experiments on
both text-to-text ST and speech-to-text ST (a.k.a., streaming speech
translation) tasks show that ITST outperforms strong baselines and achieves
state-of-the-art performance.
- Abstract(参考訳): 同時翻訳(ST)は、ソース入力を受けながら翻訳を出力するので、ターゲットトークンを翻訳するか、次のソーストークンを待つかを判断するポリシーが必要である。
stの最大の課題は、受信したソース情報が直接翻訳品質に影響を与える現在のソーストークンに基づいてのみ、ターゲットトークンを変換できることである。
当然のことながら、現在のターゲットトークンの翻訳にどの程度のソース情報が送られるかは、STポリシーが翻訳と待機を判断するための重要な証拠であると考えられる。
本稿では,翻訳をソースからターゲットへの情報伝達として扱い,情報トランスポートに基づく同時翻訳(itst)を提案する。
ITSTは、各ソーストークンから現在のターゲットトークンへの転送された情報重みを定量化し、蓄積された受信情報に基づいてターゲットトークンを翻訳するかを決定する。
テキスト間STと音声間ST(ストリーミング音声翻訳)の2つのタスクの実験は、ITTが強いベースラインを上回り、最先端のパフォーマンスを達成することを示す。
関連論文リスト
- Promoting Target Data in Context-aware Neural Machine Translation [1.8130068086063336]
我々は,対象のコンテキストがソース言語に前置されるような,新しい結合に基づく変種を評価する。
ソースにターゲットコンテキストを含めることで、ターゲット言語現象に大きな改善がもたらされることを示す。
論文 参考訳(メタデータ) (2024-02-09T11:34:39Z) - Back Translation for Speech-to-text Translation Without Transcripts [11.13240570688547]
単言語対象データから擬似STデータを合成するためのST(BT4ST)の逆変換アルゴリズムを開発した。
短時間から長期にわたる生成と一対一のマッピングによる課題を解消するため,自己管理型離散単位を導入した。
合成STデータを用いて、MuST-C En-De、En-Fr、En-Esデータセット上で平均2.3BLEUを達成する。
論文 参考訳(メタデータ) (2023-05-15T15:12:40Z) - Original or Translated? On the Use of Parallel Data for Translation
Quality Estimation [81.27850245734015]
並列データと実QEデータの間には,大きなギャップがある。
並列データの場合、それは無差別であり、翻訳文はソースまたはターゲットサイドで発生する可能性がある。
パラレルコーパスのソース元部分の使用は、そのターゲット元よりも一貫して優れています。
論文 参考訳(メタデータ) (2022-12-20T14:06:45Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Wait-info Policy: Balancing Source and Target at Information Level for
Simultaneous Machine Translation [17.802607889752736]
同時機械翻訳(SiMT)は、ソース入力を受信しながら翻訳を出力する。
情報レベルでソースとターゲットのバランスをとるためのWait-infoポリシーを提案する。
論文 参考訳(メタデータ) (2022-10-20T12:53:25Z) - Conditional Bilingual Mutual Information Based Adaptive Training for
Neural Machine Translation [66.23055784400475]
トークンレベルの適応トレーニングアプローチはトークンの不均衡問題を緩和することができる。
条件付きバイリンガル相互情報(CBMI)という目標コンテキスト対応メトリックを提案する。
CBMIは、事前の統計計算なしで、モデルトレーニング中に効率的に計算することができる。
論文 参考訳(メタデータ) (2022-03-06T12:34:10Z) - Analyzing Zero-shot Cross-lingual Transfer in Supervised NLP Tasks [6.7155846430379285]
ゼロショット言語間転送では、ある言語のコーパスでトレーニングされた教師付きnlpタスクが、追加のトレーニングなしで他の言語に直接適用されます。
最近導入されたクロス言語言語モデル(XLM)プリトレーニングは、トランスフォーマースタイルのネットワークでニューラルパラメータの共有をもたらす。
本稿では,XLM事前学習により生じる仮説上強い言語間移動特性を検証することを目的とする。
論文 参考訳(メタデータ) (2021-01-26T09:21:25Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z) - Explicit Reordering for Neural Machine Translation [50.70683739103066]
Transformer-based neural machine translation (NMT)では、位置符号化機構は、自己アテンションネットワークが順序依存でソース表現を学習するのに役立つ。
本研究では,トランスフォーマーベースのNMTに対して,このリオーダ情報を明示的にモデル化する新しいリオーダ手法を提案する。
WMT14, WAT ASPEC日本語訳, WMT17中国語訳の実証結果から, 提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。