論文の概要: Walking Through Uncertainty: An Empirical Study of Uncertainty Estimation for Audio-Aware Large Language Models
- arxiv url: http://arxiv.org/abs/2604.25591v1
- Date: Tue, 28 Apr 2026 12:56:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.863876
- Title: Walking Through Uncertainty: An Empirical Study of Uncertainty Estimation for Audio-Aware Large Language Models
- Title(参考訳): 不確かさを通した歩行:音声対応大規模言語モデルの不確かさ推定に関する実証的研究
- Authors: Chun-Yi Kuan, Wei-Ping Huang, Hung-yi Lee,
- Abstract要約: 音声対応大言語モデル(ALLM)における不確実性推定に関する最初の系統的研究について述べる。
予測エントロピー、長さ正規化エントロピー、意味エントロピー、個別意味エントロピー、P(True)を含む5つの代表的な手法をベンチマークする。
まず、意味レベルと検証ベースの手法は、一般的な音声推論ベンチマークにおけるトークンレベルベースラインを一貫して上回ります。
- 参考スコア(独自算出の注目度): 54.041320081289996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent audio-aware large language models (ALLMs) have demonstrated strong capabilities across diverse audio understanding and reasoning tasks, but they still frequently produce hallucinated or overly confident outputs. While uncertainty estimation has been extensively studied in text-only LLMs, it remains largely unexplored for ALLMs, where audio-conditioned generation introduces additional challenges such as perceptual ambiguity and cross-modal grounding. In this work, we present the first systematic empirical study of uncertainty estimation in ALLMs. We benchmark five representative methods, including predictive entropy, length-normalized entropy, semantic entropy, discrete semantic entropy, and P(True), across multiple models and diverse evaluation settings spanning general audio understanding, reasoning, hallucination detection, and unanswerable question answering. Our results reveal two key findings. First, semantic-level and verification-based methods consistently outperform token-level baselines on general audio reasoning benchmarks. Second, on trustworthiness-oriented benchmarks, the relative effectiveness of uncertainty methods becomes notably more model- and benchmark-dependent, indicating that conclusions drawn from general reasoning settings do not straightforwardly transfer to hallucination and unanswerable-question scenarios. We further explore uncertainty-based adaptive inference as a potential downstream application. We hope this study provides a foundation for future research on reliable, uncertainty-aware audio-language systems.
- Abstract(参考訳): 最近の音声認識型大規模言語モデル(ALLM)は、様々な音声理解や推論タスクにまたがる強力な能力を示しているが、それでも幻覚的あるいは過度に自信のある出力を頻繁に生成している。
テキストのみのLLMでは不確実性推定が広く研究されているが、音声条件付き生成では知覚の曖昧さやモーダル間接地といった追加の課題が生じるため、ALLMでは探索されていない。
本研究は,ALMにおける不確実性推定に関する最初の系統的研究である。
予測エントロピー,長さ正規化エントロピー,意味エントロピー,個別意味エントロピー,P(True) の5つの代表的な手法を,一般的な音声理解,推論,幻覚検出,質問応答を含む多種多様な評価設定でベンチマークした。
以上の結果から2つの重要な結果が得られた。
まず、意味レベルと検証ベースの手法は、一般的な音声推論ベンチマークにおけるトークンレベルベースラインを一貫して上回る。
第二に、信頼度を重視したベンチマークでは、不確実性手法の相対的有効性は特にモデルとベンチマークに依存しやすくなり、一般的な推論設定から引き出された結論は、幻覚や不可解な探求のシナリオへ直接移行するものではないことを示唆している。
さらに、下流アプリケーションとしての不確実性に基づく適応推論についても検討する。
本研究は,信頼性,不確実性を考慮した音声言語システム研究の基盤となることを願っている。
関連論文リスト
- The Anatomy of Uncertainty in LLMs [10.50144444577399]
我々は、不確実性を3つの異なる意味的構成要素に分解する不確実性分解フレームワークを提唱する。
我々のフレームワークは、LSMの信頼性を監査し、幻覚を検知し、目標とする介入やより信頼できるシステムへの道を開くためのより良い理解を提供する。
論文 参考訳(メタデータ) (2026-03-26T02:59:40Z) - Uncertainty Quantification for Hallucination Detection in Large Language Models: Foundations, Methodology, and Future Directions [28.64896454455385]
大規模言語モデル (LLMs) は、もっともらしいが事実的に誤りな出力を生成する幻覚の傾向にある。
不確実性定量化(UQ)は、この問題に対処する中心的な研究方向として現れている。
幻覚検出におけるUQの役割について検討し、不確実性の定量化が信頼できない世代を識別するメカニズムを提供する。
論文 参考訳(メタデータ) (2025-10-14T00:49:04Z) - Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。
LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。
本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文 参考訳(メタデータ) (2025-10-09T10:26:58Z) - Semantic Volume: Quantifying and Detecting both External and Internal Uncertainty in LLMs [13.982395477368396]
大規模言語モデル (LLM) は、膨大な事実知識を符号化することで、様々なタスクにまたがる顕著な性能を示した。
彼らはまだ幻覚を起こす傾向があり、誤った情報や誤解を招く情報を生み出し、しばしば高い不確実性を伴う。
LLMにおける外部不確実性と内部不確実性の両方を定量化する新しい尺度であるSemantic Volumeを紹介する。
論文 参考訳(メタデータ) (2025-02-28T17:09:08Z) - CLUE: Concept-Level Uncertainty Estimation for Large Language Models [49.92690111618016]
大規模言語モデル(LLM)のための概念レベル不確実性推定のための新しいフレームワークを提案する。
LLMを利用して、出力シーケンスを概念レベルの表現に変換し、シーケンスを個別の概念に分解し、各概念の不確かさを個別に測定する。
我々は,文レベルの不確実性と比較して,CLUEがより解釈可能な不確実性推定結果を提供できることを示す実験を行った。
論文 参考訳(メタデータ) (2024-09-04T18:27:12Z) - To Believe or Not to Believe Your LLM [51.2579827761899]
大規模言語モデル(LLM)における不確実性定量化について検討する。
疫学的な不確実性が大きい場合にのみ確実に検出できる情報理論の指標を導出する。
定式化の利点を実証する一連の実験を行う。
論文 参考訳(メタデータ) (2024-06-04T17:58:18Z) - Kernel Language Entropy: Fine-grained Uncertainty Quantification for LLMs from Semantic Similarities [79.9629927171974]
大規模言語モデル(LLM)の不確実性は、安全性と信頼性が重要であるアプリケーションには不可欠である。
ホワイトボックスとブラックボックス LLM における不確実性評価手法である Kernel Language Entropy (KLE) を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:42:05Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。