論文の概要: Listening or Reading? Evaluating Speech Awareness in Chain-of-Thought Speech-to-Text Translation
- arxiv url: http://arxiv.org/abs/2510.03115v1
- Date: Fri, 03 Oct 2025 15:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.46389
- Title: Listening or Reading? Evaluating Speech Awareness in Chain-of-Thought Speech-to-Text Translation
- Title(参考訳): 聞き書き・読み書き : テキスト翻訳における発話認識の評価
- Authors: Jacobo Romero-Díaz, Gerard I. Gállego, Oriol Pareras, Federico Costa, Javier Hernando, Cristina España-Bonet,
- Abstract要約: CoT(Chain-of-Thought)プロンプトが導入されており、音声と文字起こしを共同でアクセスすることがこれらの問題を克服すると予想されている。
主に音声の書き起こしに頼りながら、ほとんど音声を生かして、カスケードされた振る舞いを反映していることがわかりました。
直接S2TTデータの追加やノイズのある書き起こし注入といった簡単な訓練介入は、堅牢性を高め、音声の帰属性を高める。
- 参考スコア(独自算出の注目度): 12.571782794778182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-to-Text Translation (S2TT) systems built from Automatic Speech Recognition (ASR) and Text-to-Text Translation (T2TT) modules face two major limitations: error propagation and the inability to exploit prosodic or other acoustic cues. Chain-of-Thought (CoT) prompting has recently been introduced, with the expectation that jointly accessing speech and transcription will overcome these issues. Analyzing CoT through attribution methods, robustness evaluations with corrupted transcripts, and prosody-awareness, we find that it largely mirrors cascaded behavior, relying mainly on transcripts while barely leveraging speech. Simple training interventions, such as adding Direct S2TT data or noisy transcript injection, enhance robustness and increase speech attribution. These findings challenge the assumed advantages of CoT and highlight the need for architectures that explicitly integrate acoustic information into translation.
- Abstract(参考訳): ASR(Automatic Speech Recognition)とT2TT(Text-to-Text Translation)モジュールから構築された音声テキスト翻訳(S2TT)システムは、エラー伝搬と韻律や他の音響的手がかりを活用できないという2つの大きな制限に直面している。
CoT(Chain-of-Thought)プロンプトが最近導入され、音声と文字起こしを共同でアクセスすることがこれらの問題を克服することを期待している。
CoTの帰属法, 劣化した転写文を用いた頑健性評価, 韻律認識などを通じて分析した結果, 主に文字起こしに頼りながら, 音声をほとんど利用していないことが判明した。
直接S2TTデータの追加やノイズのある書き起こし注入といった簡単な訓練介入は、堅牢性を高め、音声の属性を増加させる。
これらの知見は、CoTの利点を前提として、音響情報を翻訳に明示的に統合するアーキテクチャの必要性を強調している。
関連論文リスト
- MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - Prompting Whisper for Improved Verbatim Transcription and End-to-end Miscue Detection [7.650371454756065]
本稿では,目的の読解テキストをプロンプトで組み込んだエンドツーエンドアーキテクチャを提案する。
本研究は, 幼児の読解音声と成人非定型音声の2つの事例研究を行い, 提案手法は, 現在の最先端技術と比較して, 動詞の書き起こしと誤検出を改善していることがわかった。
論文 参考訳(メタデータ) (2025-05-29T16:34:47Z) - GOAT-TTS: Expressive and Realistic Speech Generation via A Dual-Branch LLM [42.93855899824886]
新たな2分岐ArchiTecture(GOAT-TTS)を用いた音声合成手法を提案する。
GOAT-TTSは音声エンコーダとプロジェクタを組み合わせて連続的な音響埋め込みをキャプチャし、パラ言語的特徴(言語、音色、感情)と意味的テキスト表現の双方向の相関を可能にする。
実験の結果,GOAT-TTSは最先端のTSモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-04-15T01:44:56Z) - Speech is More Than Words: Do Speech-to-Text Translation Systems Leverage Prosody? [7.682929772871941]
韻律は音声からテキストへの翻訳システムの中ではほとんど研究されない。
エンドツーエンド(E2E)システムは、翻訳決定を行う際に音声信号に直接アクセスする。
主な課題は、翻訳における韻律認識を評価することの難しさである。
論文 参考訳(メタデータ) (2024-10-31T15:20:50Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - A Textless Metric for Speech-to-Speech Comparison [20.658229254191266]
テキストの書き起こしに頼らずに音声の発話を比較するための,新しい,シンプルな手法を提案する。
我々は,HuBERTのような最先端の音声2ユニットエンコーダを用いて,音声の発話を離散音響単位に変換する。
論文 参考訳(メタデータ) (2022-10-21T09:28:54Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。