論文の概要: DTW-Align: Bridging the Modality Gap in End-to-End Speech Translation with Dynamic Time Warping Alignment
- arxiv url: http://arxiv.org/abs/2509.18987v1
- Date: Tue, 23 Sep 2025 13:37:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.861412
- Title: DTW-Align: Bridging the Modality Gap in End-to-End Speech Translation with Dynamic Time Warping Alignment
- Title(参考訳): DTW-Align:動的時間ワープアライメントを用いたエンドツーエンド音声翻訳におけるモダリティギャップのブリッジ
- Authors: Abderrahmane Issam, Yusuf Can Semerci, Jan Scholtes, Gerasimos Spanakis,
- Abstract要約: エンド・ツー・エンド音声翻訳(End-to-End Speech Translation, E2E-ST)は、ソース音声を中間転写ステップをバイパスしてターゲットテキストに直接翻訳するタスクである。
我々は、トレーニング中に音声とテキストの埋め込みを調整するために動的時間ワープ(DTW)を適用した。
- 参考スコア(独自算出の注目度): 11.168086425477467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-End Speech Translation (E2E-ST) is the task of translating source speech directly into target text bypassing the intermediate transcription step. The representation discrepancy between the speech and text modalities has motivated research on what is known as bridging the modality gap. State-of-the-art methods addressed this by aligning speech and text representations on the word or token level. Unfortunately, this requires an alignment tool that is not available for all languages. Although this issue has been addressed by aligning speech and text embeddings using nearest-neighbor similarity search, it does not lead to accurate alignments. In this work, we adapt Dynamic Time Warping (DTW) for aligning speech and text embeddings during training. Our experiments demonstrate the effectiveness of our method in bridging the modality gap in E2E-ST. Compared to previous work, our method produces more accurate alignments and achieves comparable E2E-ST results while being significantly faster. Furthermore, our method outperforms previous work in low resource settings on 5 out of 6 language directions.
- Abstract(参考訳): エンド・ツー・エンド音声翻訳(End-to-End Speech Translation, E2E-ST)は、ソース音声を中間転写ステップをバイパスしてターゲットテキストに直接翻訳するタスクである。
音声とテキストのモダリティ間の表現の相違は、モダリティギャップを埋めることとして知られるものの研究を動機付けている。
最先端の手法は、単語やトークンのレベルで音声とテキストの表現を調整することでこの問題に対処する。
残念ながら、すべての言語で利用できないアライメントツールが必要である。
この問題は、最寄りの類似性探索を用いて音声とテキストの埋め込みを調整することで解決されているが、正確なアライメントには至らない。
本研究では、トレーニング中に音声とテキストの埋め込みを調整するために、動的時間ウォーピング(DTW)を適用する。
実験では,E2E-STのモダリティギャップを橋渡しする手法の有効性を実証した。
従来の手法と比較すると,より正確なアライメントが得られ,E2E-STと同等に高速な結果が得られる。
さらに,本手法は,6つの言語方向のうち5つにおいて,リソース設定の低さで過去の作業よりも優れていた。
関連論文リスト
- Scheduled Interleaved Speech-Text Training for Speech-to-Speech Translation with LLMs [41.088390995105826]
音声音声翻訳 (S2ST) は大規模言語モデル (LLM) で進歩している。
LLMはテキストのみのデータに基づいて訓練され、音声から音声への限られたデータで、それらに適応するための課題が提示される。
本研究では,本研究における音声教育の予定について述べる。
論文 参考訳(メタデータ) (2025-06-12T02:24:44Z) - Soft Alignment of Modality Space for End-to-end Speech Translation [49.29045524083467]
エンドツーエンドの音声翻訳は、音声を統一されたモデル内でターゲットテキストに変換することを目的としている。
音声とテキストのモダリティの固有の違いは、しばしば効果的なクロスモーダルとクロスリンガルの移動を妨げる。
両モードの表現空間を整列させるために, 対角訓練を用いたソフトアライメント(S-Align)を導入する。
論文 参考訳(メタデータ) (2023-12-18T06:08:51Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - Using Optimal Transport as Alignment Objective for fine-tuning
Multilingual Contextualized Embeddings [7.026476782041066]
我々は,マルチリンガルな文脈化表現を改善するために,微調整時のアライメント目的として最適輸送(OT)を提案する。
このアプローチでは、微調整の前に単語アライメントペアを必要とせず、教師なしの方法で文脈内の単語アライメントを学習する。
論文 参考訳(メタデータ) (2021-10-06T16:13:45Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。