論文の概要: Listen, Attend, Understand: a Regularization Technique for Stable E2E Speech Translation Training on High Variance labels
- arxiv url: http://arxiv.org/abs/2601.01121v1
- Date: Sat, 03 Jan 2026 08:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.039539
- Title: Listen, Attend, Understand: a Regularization Technique for Stable E2E Speech Translation Training on High Variance labels
- Title(参考訳): 高変数ラベルを用いた安定E2E音声翻訳訓練のための正規化手法
- Authors: Yacouba Diarra, Michael Leventhal,
- Abstract要約: Listen, Attend, Understand (LAU) は、学習中に音響エンコーダの潜在空間を制限する意味正規化技術である。
本研究では,ノンプロフェッショナルが翻訳したBambara-to- Frenchデータセットを30時間にわたって評価した。
- 参考スコア(独自算出の注目度): 0.49109372384514843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-End Speech Translation often shows slower convergence and worse performance when target transcriptions exhibit high variance and semantic ambiguity. We propose Listen, Attend, Understand (LAU), a semantic regularization technique that constrains the acoustic encoder's latent space during training. By leveraging frozen text embeddings to provide a directional auxiliary loss, LAU injects linguistic groundedness into the acoustic representation without increasing inference cost. We evaluate our method on a Bambara-to-French dataset with 30 hours of Bambara speech translated by non-professionals. Experimental results demonstrate that LAU models achieve comparable performance by standard metrics compared to an E2E-ST system pretrained with 100\% more data and while performing better in preserving semantic meaning. Furthermore, we introduce Total Parameter Drift as a metric to quantify the structural impact of regularization to demonstrate that semantic constraints actively reorganize the encoder's weights to prioritize meaning over literal phonetics. Our findings suggest that LAU is a robust alternative to post-hoc rescoring and a valuable addition to E2E-ST training, especially when training data is scarce and/or noisy.
- Abstract(参考訳): エンド・ツー・エンド音声翻訳は、目標文字が高いばらつきと意味的曖昧さを示す場合、収束が遅く、性能が悪くなることが多い。
本稿では、学習中に音響エンコーダの潜伏空間を制限する意味正規化手法であるリステン、アットエンド、アンダースタンド(LAU)を提案する。
凍結したテキスト埋め込みを利用して指向性補助的損失を与えることにより、LAUは推論コストを増大させることなく、言語的基底性を音響表現に注入する。
本研究では,ノンプロフェッショナルが翻訳したBambara-to- Frenchデータセットを30時間にわたって評価した。
実験の結果、LAUモデルは100\%以上のデータで事前訓練されたE2E-STシステムと比較して、標準的な指標で同等の性能を実現し、セマンティックな意味の保存に優れていた。
さらに、正規化の構造的影響を定量化する指標としてTotal Parameter Driftを導入し、意味的制約がエンコーダの重みを積極的に再構成し、リテラル音声よりも意味を優先することを示す。
以上の結果から,LAUはポストホック・リスコリングに代わる堅牢な代替手段であり,特にトレーニングデータが少ない場合,E2E-STトレーニングに有意な付加効果があることが示唆された。
関連論文リスト
- StressTransfer: Stress-Aware Speech-to-Speech Translation with Emphasis Preservation [10.037278049189073]
単語レベルの強調を保存したストレス対応音声音声合成システム(S2ST)を提案する。
制御可能なTSモデルを誘導するターゲット言語タグへのソース言語ストレスについて検討した。
論文 参考訳(メタデータ) (2025-10-15T06:32:24Z) - Scaling and Prompting for Improved End-to-End Spoken Grammatical Error Correction [33.116296120680296]
この研究は、限定ラベル付きデータの課題に対処する擬似ラベリングプロセスを導入する。
E2E Whisper-based SGEC model with fluent transcriptions, show a little improve in SGEC performance。
最後に、モデルサイズの増加による影響を評価し、擬似ラベル付きデータでは大きなWhisperモデルの性能向上は得られないが、プロンプトを用いたトレーニングは有益であることを示す。
論文 参考訳(メタデータ) (2025-05-27T12:50:53Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。