論文の概要: Shiftable Context: Addressing Training-Inference Context Mismatch in
Simultaneous Speech Translation
- arxiv url: http://arxiv.org/abs/2307.01377v1
- Date: Mon, 3 Jul 2023 22:11:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 18:55:30.295533
- Title: Shiftable Context: Addressing Training-Inference Context Mismatch in
Simultaneous Speech Translation
- Title(参考訳): shiftable context: 同時音声翻訳における学習-参照コンテキストミスマッチの解消
- Authors: Matthew Raffel, Drew Penney, Lizhong Chen
- Abstract要約: セグメントベース処理を用いたトランスフォーマーモデルは、同時音声翻訳に有効なアーキテクチャである。
トレーニングと推論を通じて一貫したセグメントとコンテキストサイズを確実に維持するために、シフト可能なコンテキストを提案する。
- 参考スコア(独自算出の注目度): 0.17188280334580192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models using segment-based processing have been an effective
architecture for simultaneous speech translation. However, such models create a
context mismatch between training and inference environments, hindering
potential translation accuracy. We solve this issue by proposing Shiftable
Context, a simple yet effective scheme to ensure that consistent segment and
context sizes are maintained throughout training and inference, even with the
presence of partially filled segments due to the streaming nature of
simultaneous translation. Shiftable Context is also broadly applicable to
segment-based transformers for streaming tasks. Our experiments on the
English-German, English-French, and English-Spanish language pairs from the
MUST-C dataset demonstrate that when applied to the Augmented Memory
Transformer, a state-of-the-art model for simultaneous speech translation, the
proposed scheme achieves an average increase of 2.09, 1.83, and 1.95 BLEU
scores across each wait-k value for the three language pairs, respectively,
with a minimal impact on computation-aware Average Lagging.
- Abstract(参考訳): セグメントベース処理を用いたトランスフォーマーモデルは同時音声翻訳に有効なアーキテクチャである。
しかし、そのようなモデルはトレーニング環境と推論環境のコンテキストミスマッチを生成し、潜在的な翻訳精度を妨げる。
同時翻訳のストリーミング特性によって部分的に満たされたセグメントが存在する場合でも、トレーニングや推論を通じて一貫したセグメントとコンテキストサイズが維持されることを保証する、シンプルで効果的なスキームであるShiftable Contextを提案する。
シフト可能なコンテキストは、ストリーミングタスク用のセグメントベースのトランスフォーマーにも広く適用できる。
MUST-Cデータセットから得られた英語・ドイツ語・フランス語・英語・スペイン語のペアについて実験した結果,Augmented Memory Transformerに適用した場合,平均29%,1.83,1.95のBLEUスコアが3つの言語ペアのウェイト-k値に対してそれぞれ平均的に増加し,平均ラゲリングに最小の影響が認められた。
関連論文リスト
- Long-Form End-to-End Speech Translation via Latent Alignment
Segmentation [6.153530338207679]
現在の同時音声翻訳モデルは、最大数秒間しか音声を処理できない。
本稿では,低レイテンシなエンドツーエンド音声翻訳のための新しいセグメンテーション手法を提案する。
提案手法は, 新たな計算コストを伴わずに, 最先端の品質を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-20T15:10:12Z) - End-to-End Simultaneous Speech Translation with Differentiable
Segmentation [21.03142288187605]
SimulSTはストリーミング音声入力を受信しながら翻訳を出力する。
音声入力を好ましくないタイミングにセグメント化することは、音響的整合性を阻害し、翻訳モデルの性能に悪影響を及ぼす可能性がある。
そこで本研究では,SimulST における微分可能セグメンテーション (DiSeg) を提案し,基礎となる翻訳モデルから直接セグメンテーションを学習する。
論文 参考訳(メタデータ) (2023-05-25T14:25:12Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - RealTranS: End-to-End Simultaneous Speech Translation with Convolutional
Weighted-Shrinking Transformer [33.876412404781846]
RealTranSは、同時音声翻訳のためのエンドツーエンドモデルである。
音声特徴を重み付き収縮操作と意味エンコーダでテキスト空間にマッピングする。
実験により、Wait-K-Stride-N戦略を用いたRealTranSは、従来のエンドツーエンドモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-09T06:35:46Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。