論文の概要: Adaptive vector steering: A training-free, layer-wise intervention for hallucination mitigation in large audio and multimodal models
- arxiv url: http://arxiv.org/abs/2510.12851v1
- Date: Tue, 14 Oct 2025 08:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.362088
- Title: Adaptive vector steering: A training-free, layer-wise intervention for hallucination mitigation in large audio and multimodal models
- Title(参考訳): アダプティブ・ベクター・ステアリング:大規模オーディオモデルとマルチモーダルモデルにおける幻覚緩和のための学習自由層的介入
- Authors: Tsung-En Lin, Kuan-Yi Lee, Hung-Yi Lee,
- Abstract要約: 本稿では,適応ベクトルステアリングによる音声コンテンツのより良い生成を提案する。
実験では、2つのモデルと2つのベンチマークで一貫したパフォーマンス向上を示している。
我々の知る限りでは、オーディオにおける幻覚を軽減するためにベクトルステアリングを適用した最初の研究である。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Audio-Language Models and Multi-Modal Large Language Models have demonstrated strong capabilities in tasks such as Audio Question Answering (AQA), Audio Captioning, and Automatic Speech Recognition (ASR). However, there is growing evidence that these models can hallucinate about the content of the audio. To address this issue, we probe the models' internal states and propose Adaptive Vector Steering (AVS), a method that better grounds generation in audio content. We also identify a strong correlation between output correctness and internal representations. Experiments show consistent performance gains across two models and two benchmarks. On the Audio Hallucination QA dataset, our method boosts the F1-score of Gemma from 0.550 to 0.619 and Qwen from 0.626 to 0.632. Furthermore, our method increases the accuracy of Qwen on MMAU from 0.548 to 0.592, marking an 8% relative increase. To the best of our knowledge, this is the first work to apply vector steering to mitigate hallucination in audio.
- Abstract(参考訳): AQA(Audio Question Answering)、Audio Captioning(オーディオキャプション)、Automatic Speech Recognition(ASR)といったタスクにおいて、大規模音声言語モデルとマルチモーダル言語モデルが強力な機能を示している。
しかし、これらのモデルが音声の内容に幻覚を与える証拠が増えている。
この問題に対処するために、モデルの内部状態を探索し、オーディオコンテンツの生成をより良くする手法である適応ベクトルステアリング(AVS)を提案する。
また、出力の正しさと内部表現との強い相関関係を同定する。
実験では、2つのモデルと2つのベンチマークで一貫したパフォーマンス向上を示している。
Audio Hallucination QAデータセットでは、GemmaのF1スコアが0.550から0.619に、Qwenが0.626から0.632に上昇する。
さらに,MMAU上のQwenの精度は0.548から0.592に向上し,8%の相対的増加を示した。
我々の知る限りでは、オーディオにおける幻覚を軽減するためにベクトルステアリングを適用した最初の研究である。
関連論文リスト
- Audio-Maestro: Enhancing Large Audio-Language Models with Tool-Augmented Reasoning [45.88028371034407]
ツール拡張オーディオ推論フレームワークであるAudio-Maestroを紹介する。
音声によるモデルは、外部ツールを自律的に呼び出し、タイムスタンプされた出力を推論プロセスに統合することができる。
実験により、Audio-Maestroは一般的な音声推論性能を一貫して改善することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:25:34Z) - Reducing Object Hallucination in Large Audio-Language Models via Audio-Aware Decoding [54.82619273983179]
LALM(Large Audio-Language Models)は、オーディオに提示されるものを幻覚させる。
LALMの幻覚を軽減するためにオーディオ・アウェア・デコーディング(AAD)を導入する。
AADはコントラストデコーディングを使用して、トークン予測ログとオーディオコンテキストの有無を比較します。
論文 参考訳(メタデータ) (2025-06-08T17:36:50Z) - Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (2025-05-12T09:04:16Z) - Taming Data and Transformers for Audio Generation [31.815960560115176]
AutoReCap-XLは、4700万回以上のクリップを持つ、最大の環境オーディオテキストデータセットである。
AutoCapは高品質のオーディオキャプションモデルである。
GenAuはスケーラブルなトランスフォーマーベースのオーディオ生成アーキテクチャである。
論文 参考訳(メタデータ) (2024-06-27T17:58:54Z) - Audio Mamba: Bidirectional State Space Model for Audio Representation Learning [15.472819870523093]
本稿では,音声分類のためのSSMベースモデルとして,自己注意のない初のAudio Mambaを紹介する。
我々は、AuMを6つの異なるベンチマークを含む様々なオーディオデータセットで評価し、同等またはより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-05T15:00:59Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - A Light Weight Model for Active Speaker Detection [7.253335671577093]
入力候補を減らし、2次元と3次元の畳み込みを音声・視覚特徴抽出に分割し、計算量が少ないゲート再帰ユニット(GRU)をクロスモーダルモデリングに応用し、軽量な能動話者検出アーキテクチャを構築した。
AVA-ActiveSpeakerデータセットの実験結果は、我々のフレームワークが競合的なmAP性能(94.1%対94.2%)を達成することを示している。
私たちのフレームワークは、良好な堅牢性を示すColumbiaデータセットでもうまく機能します。
論文 参考訳(メタデータ) (2023-03-08T08:40:56Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Large Scale Audiovisual Learning of Sounds with Weakly Labeled Data [9.072124914105325]
本稿では、弱いラベル付きビデオ記録から音を認識することを学習するオーディオ視覚融合モデルを提案する。
大規模音響イベントデータセットであるAudioSetの実験は,提案モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-29T01:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。