論文の概要: Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models
- arxiv url: http://arxiv.org/abs/2606.05161v1
- Date: Wed, 03 Jun 2026 17:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.952024
- Title: Beyond Text Following: Repairable Arbitration Reversals in Audio-Language Models
- Title(参考訳): テキスト追従を超えて:オーディオ言語モデルにおける修正可能なアロケーションの逆転
- Authors: Yichen Gao, Yiqun Zhang, Zijing Wang, Yujia Li, Heng Guo, Xi Wu, Xiaocui Yang, Shi Feng, Yifei Zhang, Daling Wang,
- Abstract要約: 音声モデルはしばしば、音声証拠が明確であっても、音声と矛盾するテキストに従う。
Gated Audio Counterfactual Logit Correction (GACL)を提案する。
厳格な5ppの忠実度ドロップの予算の下で、GACLは最高のコントラストベースラインよりも17.8ポイントのnAUCを改善している。
- 参考スコア(独自算出の注目度): 34.99721206808916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-language models (ALMs) often follow text that conflicts with audio, even when the audio evidence is clear. This raises a basic question: is the audio-supported answer unavailable, or is it represented but overridden by the conflicting text? We examine this question using a same-audio counterfactual that keeps the audio fixed, removes only the conflicting text, and measures the resulting shift in model preference. Across five ALMs and four conflict tasks, 64.1% of conflict samples show a sign flip: the same-audio branch prefers the audio-supported answer, whereas the joint branch prefers the text-supported answer. This pattern suggests that the relevant audio evidence is encoded but loses in arbitration. Activation patching further localizes the reversal to answer-position computation, and patching effects closely track output candidate-score differences (Spearman rho=0.93). Using this diagnostic, we propose Gated Audio Counterfactual Logit Correction (GACL), a training-free decoding rule that interpolates between joint and same-audio scores. Under a strict 5 pp faithfulness-drop budget, GACL improves nAUC by 17.8 points over the best contrastive baseline and transfers without retuning to vision-text arbitration (up to +40.5 pp).
- Abstract(参考訳): 音声言語モデル(ALM)は、音声証拠が明確であっても、音声と矛盾するテキストに従うことが多い。
オーディオ対応の回答は利用できないのか、それとも、矛盾するテキストによって表現されているか、オーバーライドされているのか?
我々は,音声を固定し,矛盾するテキストのみを取り除き,結果として生じるモデル嗜好の変化を計測する同音対効果を用いて,この問題を考察する。
5つのALMと4つのコンフリクトタスクで64.1%のコンフリクトサンプルがサインフリップを示している。
このパターンは、関連する音声証拠が符号化されているが、調停で失われていることを示唆している。
アクティベーションパッチは、さらに応答位置の計算の逆転をローカライズし、出力候補スコア差を密に追跡する(Spearman rho=0.93)。
この診断法を用いて,共同音声と同一音声のスコアを補間する学習自由復号法であるGACL(Gated Audio Counterfactual Logit Correction)を提案する。
厳格な5ppの忠実度ドロップの予算の下で、GACLは最高のコントラストベースラインに対して17.8ポイントのnAUCを改善し、視覚テキストの調停(+40.5ppまで)を調整せずに転送する。
関連論文リスト
- When Audio-LLMs Don't Listen: A Cross-Linguistic Study of Modality Arbitration [1.5567685129899713]
音声とテキストが衝突する場合、音声対応言語モデルは2つのテキストソース間の調停の10倍の頻度でテキストに従う。
応答前に書き起こしを強制すると、テキストの優位性(19%から33%)が増加し、アクセシビリティを向上させることなく、音声の利点を犠牲にする。
最先端の4つのオーディオ-LLMと8言語にわたる実験は、言語間およびクロスモデルの変化と一貫した傾向を示している。
論文 参考訳(メタデータ) (2026-02-12T02:15:30Z) - Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval [58.640807985155554]
Video Moment Retrieval (VMR)は、特定のクエリに関連する特定のモーメントを検索することを目的としている。
既存のVMRメソッドの多くは、補完的ではあるが重要なオーディオのモダリティを無視しながら、視覚的およびテキスト的モダリティにのみ焦点をあてている。
本稿では,VMRの音声ビジョンコンテキストを動的かつ選択的に集約する,新しいImportance-Aware Multi-Granularity fusion Model (IMG)を提案する。
論文 参考訳(メタデータ) (2025-08-06T09:58:43Z) - Killing two birds with one stone: Can an audio captioning system also be
used for audio-text retrieval? [0.0]
本研究は、音声テキスト検索(ATR)とAAC(Automated Audio Captioning)の関係について検討する。
ATRでは、任意のオーディオ/カプセル対に対して得られた標準のクロスエントロピー損失値を用いる。
ClothoとAudioCapsのデータセットの実験結果は、この単純なアプローチによる適切なリコール値を示している。
論文 参考訳(メタデータ) (2023-08-29T07:53:17Z) - Efficient Audio Captioning Transformer with Patchout and Text Guidance [74.59739661383726]
本稿では, [1] で提案した Patchout を利用したフルトランスフォーマーアーキテクチャを提案する。
キャプション生成は、事前訓練された分類モデルにより抽出されたテキストオーディオセットタグに部分的に条件付けされる。
提案手法は,DCASE Challenge 2022のタスク6Aで審査員賞を受賞している。
論文 参考訳(メタデータ) (2023-04-06T07:58:27Z) - CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled
Videos [44.14061539284888]
そこで本稿では,未ラベルデータのみを用いて,テキスト検索による普遍的音源分離手法を提案する。
提案したCLIPSepモデルは、まずコントラッシブ言語画像事前学習(CLIP)モデルを用いて、入力クエリをクエリベクトルにエンコードする。
モデルはラベルのないビデオから抽出した画像とオーディオのペアに基づいてトレーニングされるが、テスト時にはゼロショット設定でテキスト入力でモデルをクエリすることができる。
論文 参考訳(メタデータ) (2022-12-14T07:21:45Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - CL4AC: A Contrastive Loss for Audio Captioning [43.83939284740561]
CL4AC(Contrastive Loss for Audio Captioning)と呼ばれる新しいエンコーダデコーダフレームワークを提案する。
CL4ACでは、元の音声テキストペアデータから導出される自己超越信号を用いて、音声とテキストの対応を利用する。
提案手法の有効性を示すため,Closoデータセット上で実験を行った。
論文 参考訳(メタデータ) (2021-07-21T10:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。