論文の概要: Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps
- arxiv url: http://arxiv.org/abs/2604.19565v1
- Date: Tue, 21 Apr 2026 15:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.840862
- Title: Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps
- Title(参考訳): 注意図を用いた音声LLMの発話時間における幻覚検出
- Authors: Jonas Waldendorf, Bashar Awwad Shiekh Hasan, Evgenii Tsymbalov,
- Abstract要約: 音声大言語モデル(SpeechLLMs)における幻覚は重大なリスクを伴うが、既存の検出方法は、コストがかかるか現実的でない金標準出力に依存している。
本研究は,幻覚に関連する病的注意パターンを捉えるために,AuDIORATIO,AUDIOCONSISTENCY,AUDIOENTROPY,TEXTENTROPYの4つの注意指標について検討した。
自動音声認識と音声からテキストへの翻訳作業は,不確実性に基づくベースラインや,それ以前のアテンションに基づくベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 1.8825446478246406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hallucinations in Speech Large Language Models (SpeechLLMs) pose significant risks, yet existing detection methods typically rely on gold-standard outputs that are costly or impractical to obtain. Moreover, hallucination detection methods developed for text-based LLMs do not directly capture audio-specific signals. We investigate four attention-derived metrics: AUDIORATIO, AUDIOCONSISTENCY, AUDIOENTROPY, and TEXTENTROPY, designed to capture pathological attention patterns associated with hallucination, and train lightweight logistic regression classifiers on these features for efficient inference-time detection. Across automatic speech recognition and speech-to-text translation tasks, evaluations on Qwen-2-Audio and Voxtral-3B show that our approach outperforms uncertainty-based and prior attention-based baselines on in-domain data, achieving improvements of up to +0.23 PR-AUC, and generalises to out-of-domain ASR settings. We further find that strong performance can be achieved with approximately 100 attention heads, improving out-of-domain generalisation compared to using all heads. While effectiveness is model-dependent and task-specific training is required, our results demonstrate that attention patterns provide a valuable tool for hallucination detection in SpeechLLMs.
- Abstract(参考訳): 音声大言語モデル (SpeechLLMs) における幻覚は重大なリスクをもたらすが、既存の検出手法は一般的に金標準出力に依存しており、それを得るには費用がかかるか実用的でない。
さらに、テキストベースのLLM向けに開発された幻覚検出法は、直接的に音声固有の信号をキャプチャするものではない。
AUDIORATIO, AUDIOCONSISTENCY, AUDIOENTROPY, TEXTENTROPYの4つの注意指標について検討した。
Qwen-2-Audio と Voxtral-3B による自動音声認識,音声テキスト翻訳タスク,Qwen-2-Audio と Voxtral-3B による評価により,本手法はドメイン内データに対する不確実性ベースラインや事前注意ベースラインよりも優れ,+0.23 PR-AUC の改善,ドメイン外 ASR 設定への一般化を実現している。
さらに、約100個の注意頭を用いて、強い性能を達成でき、全ての頭を用いた場合と比較して、領域外一般化が改善される。
有効性はモデルに依存し,タスク固有の訓練が必要であるが,本研究の結果は,注意パターンがSpeechLLMの幻覚検出に有用なツールであることを示している。
関連論文リスト
- RAGognizer: Hallucination-Aware Fine-Tuning via Detection Head Integration [0.2696472814555309]
本稿では,検出ヘッドを大規模言語モデルに統合する幻覚認識型微調整手法であるRAGognizerを紹介する。
RAGognizerは、生成時の幻覚率を大幅に低減しつつ、最先端のトークンレベルの幻覚検出を実現する。
論文 参考訳(メタデータ) (2026-04-17T11:07:32Z) - Detecting Contextual Hallucinations in LLMs with Frequency-Aware Attention [27.49425252327799]
我々は、世代間の変化を分析することによって、注意に対する周波数認識の視点を導入する。
高周波アテンション特徴を用いた軽量幻覚検出装置を開発した。
論文 参考訳(メタデータ) (2026-02-20T11:18:45Z) - Measuring the Impact of Lexical Training Data Coverage on Hallucination Detection in Large Language Models [26.89705770151822]
大規模言語モデル(LLM)における幻覚は、特にオープンドメインの質問応答において、根本的な課題である。
これまでの研究は、トークンレベルのエントロピーや生成一貫性といったモデル内部信号による幻覚の検出を試みた。
本研究では,データカバレッジ自体が検出信号として機能するかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-22T06:59:55Z) - Temporal-Aware Iterative Speech Model for Dementia Detection [0.0]
音声を用いた認知症自動検出の現在の手法は,静的,時間に依存しない特徴や集約された言語コンテンツに依存している。
本稿では,認知症検出のための自然発話を動的にモデル化するテンポラル・アウェア・イテレーティブ・フレームワークであるTAI-Speechを紹介する。
私たちの研究は、より柔軟で堅牢な認知評価ソリューションを提供し、生のオーディオのダイナミクスを直接操作します。
論文 参考訳(メタデータ) (2025-09-26T01:56:07Z) - Zero-Shot Cognitive Impairment Detection from Speech Using AudioLLM [9.84961079811343]
音声は、認知低下を評価するための非侵襲的で容易に収集可能なバイオマーカーとして注目されている。
従来の認知障害検出法は、音声から抽出された音響的特徴と言語的特徴に基づいて訓練された教師付きモデルに依存している。
音声入力とテキスト入力の両方を処理可能なモデルであるQwen2- Audio AudioLLMを用いた,最初のゼロショット音声ベースのCI検出手法を提案する。
論文 参考訳(メタデータ) (2025-06-20T01:28:43Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。