論文の概要: Cross-Attention is Half Explanation in Speech-to-Text Models
- arxiv url: http://arxiv.org/abs/2509.18010v1
- Date: Mon, 22 Sep 2025 16:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.515142
- Title: Cross-Attention is Half Explanation in Speech-to-Text Models
- Title(参考訳): 音声・テキストモデルにおけるクロスアテンションは半説明である
- Authors: Sara Papi, Dennis Fucci, Marco Gaido, Matteo Negri, Luisa Bentivogli,
- Abstract要約: クロスアテンションはエンコーダ・デコーダアーキテクチャのコアメカニズムであり、音声テキスト処理(S2T)を含む多くの分野に普及している。
本分析では,単言語,多言語,単一タスク,マルチタスクのモデルを複数スケールで分析し,注意点が塩分濃度に基づく説明と強く一致していることを示す。
また、クロスアテンションは入力関係の約50%しか捕捉せず、最良の場合、デコーダがエンコーダの表現にどのように出席するかを部分的に反映している。
- 参考スコア(独自算出の注目度): 31.16674879591289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-attention is a core mechanism in encoder-decoder architectures, widespread in many fields, including speech-to-text (S2T) processing. Its scores have been repurposed for various downstream applications--such as timestamp estimation and audio-text alignment--under the assumption that they reflect the dependencies between input speech representation and the generated text. While the explanatory nature of attention mechanisms has been widely debated in the broader NLP literature, this assumption remains largely unexplored within the speech domain. To address this gap, we assess the explanatory power of cross-attention in S2T models by comparing its scores to input saliency maps derived from feature attribution. Our analysis spans monolingual and multilingual, single-task and multi-task models at multiple scales, and shows that attention scores moderately to strongly align with saliency-based explanations, particularly when aggregated across heads and layers. However, it also shows that cross-attention captures only about 50% of the input relevance and, in the best case, only partially reflects how the decoder attends to the encoder's representations--accounting for just 52-75% of the saliency. These findings uncover fundamental limitations in interpreting cross-attention as an explanatory proxy, suggesting that it offers an informative yet incomplete view of the factors driving predictions in S2T models.
- Abstract(参考訳): クロスアテンションはエンコーダ・デコーダアーキテクチャのコアメカニズムであり、音声テキスト処理(S2T)を含む多くの分野に普及している。
そのスコアは、入力された音声表現と生成されたテキストの依存関係を反映したタイムスタンプ推定や音声テキストアライメントなど、様々なダウンストリームアプリケーションに再利用されている。
注意機構の説明的性質は幅広いNLP文献で広く議論されているが、この仮定は音声領域内では未解明のままである。
このギャップに対処するために,S2Tモデルにおけるクロスアテンションの説明力について,そのスコアと特徴属性から得られるサリエンシマップの入力を比較して評価する。
分析は単言語モデル,多言語モデル,単一タスクモデル,マルチタスクモデルを複数スケールで分析し,特に頭部や層に集約された場合の塩分濃度に基づく説明と強く一致するように注意スコアを適度に示す。
しかし、これはまた、クロスアテンションが入力関係の約50%しかキャプチャできないことを示しており、最も良い場合、デコーダがエンコーダの表現にどのように出席するかを部分的に反映しているだけである。
これらの結果から,クロスアテンションを説明的プロキシとして解釈する上での基本的限界が明らかとなり,S2Tモデルにおける予測を駆動する要因について,情報的かつ不完全である可能性が示唆された。
関連論文リスト
- Entropy-based Coarse and Compressed Semantic Speech Representation Learning [72.18542411704347]
圧縮された意味表現を学習するためのエントロピーに基づく動的集約フレームワークを提案する。
ASR、音声からテキストへの変換、音声変換タスクの実験は、圧縮された表現が密度の高いトークンシーケンスと同等以上のパフォーマンスを示すことを示した。
論文 参考訳(メタデータ) (2025-08-30T13:50:58Z) - T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting [20.21019748095159]
ゼロショットオブジェクトカウントは、テキスト記述によって指定された任意のオブジェクトカテゴリのインスタンスをカウントすることを目的としている。
我々は、事前学習した拡散モデルから、豊富な事前知識ときめ細かい視覚的理解を活用する拡散に基づくフレームワークT2ICountを提案する。
論文 参考訳(メタデータ) (2025-02-28T01:09:18Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Coreference-aware Double-channel Attention Network for Multi-party
Dialogue Reading Comprehension [7.353227696624305]
MDRC(Multi-party Dialogue Reading)に挑戦する
MDRCは、複数のインターロケータ間の対話に基づく抽出読解タスクの略である。
推論能力を高めるためのコア推論対応アテンションモデリング手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T05:01:29Z) - Leveraging Acoustic Contextual Representation by Audio-textual
Cross-modal Learning for Conversational ASR [25.75615870266786]
先行する音声から直接文脈表現を学習するための音声・テキスト・モーダル表現抽出器を提案する。
提案手法の有効性を複数のマンダリン会話コーパスで検証した。
論文 参考訳(メタデータ) (2022-07-03T13:32:24Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Question Answering Infused Pre-training of General-Purpose
Contextualized Representations [70.62967781515127]
汎用的文脈表現学習のための質問応答(QA)に基づく事前学習目的を提案する。
我々は、より正確なクロスエンコーダモデルの予測と一致するように、個別にパスと質問をエンコードするバイエンコーダQAモデルをトレーニングすることで、この目標を達成する。
ゼロショット, 少数ショットのパラフレーズ検出において, RoBERTa-large と過去の最先端のどちらよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-06-15T14:45:15Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Salience Estimation with Multi-Attention Learning for Abstractive Text
Summarization [86.45110800123216]
テキスト要約のタスクでは、単語、フレーズ、文のサリエンス推定が重要な要素である。
本稿では,サラレンス推定のための2つの新しい注目学習要素を含むマルチアテンション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T02:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。