論文の概要: Reducing Object Hallucination in Large Audio-Language Models via Audio-Aware Decoding
- arxiv url: http://arxiv.org/abs/2506.07233v1
- Date: Sun, 08 Jun 2025 17:36:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.723736
- Title: Reducing Object Hallucination in Large Audio-Language Models via Audio-Aware Decoding
- Title(参考訳): 音声認識復号による大規模音声言語モデルにおける物体の幻覚の低減
- Authors: Tzu-wen Hsu, Ke-Han Lu, Cheng-Han Chiang, Hung-yi Lee,
- Abstract要約: LALM(Large Audio-Language Models)は、オーディオに提示されるものを幻覚させる。
LALMの幻覚を軽減するためにオーディオ・アウェア・デコーディング(AAD)を導入する。
AADはコントラストデコーディングを使用して、トークン予測ログとオーディオコンテキストの有無を比較します。
- 参考スコア(独自算出の注目度): 52.04807256534917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Audio-Language Models (LALMs) can take audio and text as the inputs and answer questions about the audio. While prior LALMs have shown strong performance on standard benchmarks, there has been alarming evidence that LALMs can hallucinate what is presented in the audio. To mitigate the hallucination of LALMs, we introduce Audio-Aware Decoding (AAD), a lightweight inference-time strategy that uses contrastive decoding to compare the token prediction logits with and without the audio context. By contrastive decoding, AAD promotes the tokens whose probability increases when the audio is present. We conduct our experiment on object hallucination datasets with three LALMs and show that AAD improves the F1 score by 0.046 to 0.428. We also show that AAD can improve the accuracy on general audio QA datasets like Clotho-AQA by 5.4% to 10.3%. We conduct thorough ablation studies to understand the effectiveness of each component in AAD.
- Abstract(参考訳): LALM(Large Audio-Language Models)は、音声とテキストを入力として取り出し、音声に関する質問に答える。
従来のLALMは標準ベンチマークで強い性能を示してきたが、LALMがオーディオで提示されるものを幻覚させるという証拠は警告されている。
LALMの幻覚を緩和するため,AAD(Audio-Aware Decoding)を導入した。
対照的に、AADはオーディオが存在するときに確率が増加するトークンをプロモートする。
我々は、3つのLALMを用いた物体幻覚データセットの実験を行い、AADがF1スコアを0.046から0.428に改善したことを示す。
また、AADはClatho-AQAのような一般的なオーディオQAデータセットの精度を5.4%から10.3%向上させることができることを示す。
AADにおける各成分の有効性を理解するために、徹底的なアブレーション研究を行っている。
関連論文リスト
- From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
LISTENは、現在と欠落した音を識別するallMsの能力を改善するために設計された、コントラスト的な訓練手法である。
また、BALSaをマルチオーディオシナリオに拡張し、モデルが音声入力の違いを説明するか、統一的なキャプションを生成する。
実験結果から,本手法は音声理解,推論,指示追従のスキルを確実に保ちながら,音声の幻覚を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。
これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。
LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文 参考訳(メタデータ) (2025-05-20T15:44:01Z) - $\mathcal{A}LLM4ADD$: Unlocking the Capabilities of Audio Large Language Models for Audio Deepfake Detection [57.29614630309265]
オーディオ大言語モデル(ALLM)は様々なオーディオ処理タスクにおいて大きな進歩を遂げた。
ADDのためのALLM駆動フレームワークであるmathcalALLM4ADD$を提案する。
提案手法は,特にデータスカースシナリオにおいて,偽音声検出において優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2025-05-16T10:10:03Z) - Probing Audio-Generation Capabilities of Text-Based Language Models [5.4211188445379825]
本研究では,大規模言語モデルが音声を生成できる範囲について検討する。
我々は、音声生成の複雑さを徐々に増大させる3層アプローチを採用する。
以上の結果から,LLMは基本的音声特徴を生成できるが,音声の複雑さが増すにつれて性能が低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-05-04T23:46:01Z) - Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding [30.46616330202622]
自動音声キャプション(英: Automated Audio Casting, AAC)は、自然言語で音声を記述するための音声からテキストへのタスクである。
大規模言語モデル(LLM)の最近の進歩は、AACを改善する可能性を広げている。
提案手法は,DCASE 2023 Task 6Aの勝者よりも優れた33.0 SPIDEr-FLスコアを得る。
論文 参考訳(メタデータ) (2024-06-19T07:09:46Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - AKVSR: Audio Knowledge Empowered Visual Speech Recognition by
Compressing Audio Knowledge of a Pretrained Model [53.492751392755636]
本稿では、音声モダリティを用いて、視覚的モダリティの不十分な音声情報を補うために、AKVSR(AKVSR)を提案する。
提案手法の有効性を広範囲な実験により検証し,広範に使用されているLSS3データセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-15T06:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。