論文の概要: Evaluating Hallucinations in Multimodal LLMs with Spoken Queries under Diverse Acoustic Conditions
- arxiv url: http://arxiv.org/abs/2510.08581v1
- Date: Fri, 19 Sep 2025 07:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 05:23:07.111258
- Title: Evaluating Hallucinations in Multimodal LLMs with Spoken Queries under Diverse Acoustic Conditions
- Title(参考訳): 多様な音響条件下での音声クエリによるマルチモーダルLLMの幻覚評価
- Authors: Hansol Park, Hoseong Ahn, Junwon Moon, Yejin Lee, Kyuhong Shim,
- Abstract要約: 音声入力が大規模言語モデルにおける幻覚に与える影響について検討する。
本稿では,RePOPEベンチマークの音声拡張であるRePOPE-Spkについて述べる。
実験結果から, 文章ではなく, クエリが話されるときに, 幻覚がエスカレートすることが明らかとなった。
- 参考スコア(独自算出の注目度): 10.361060366260729
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Hallucinations in vision-language models have been extensively studied using benchmarks that probe reliability in image-text settings. In contrast, the effect of spoken queries on multimodal hallucinations remains largely unexplored, despite the growing role of voice-driven interfaces. In this work, we investigate how spoken input influences hallucinations in multimodal large language models. We present RePOPE-Spk, an audio-augmented extension of the RePOPE benchmark, where queries are provided as speech under diverse acoustic conditions. Using RePOPE-Spk, we systematically evaluate both proprietary and open-source models. Experimental results show that hallucinations escalate when queries are spoken rather than written: error rates increase by 3% under clean speech and by up to 20% with environmental noise. Input order and query length further affect robustness, while strategies such as many-shot prompting and chain-of-thought reasoning offer partial but insufficient mitigation. These findings highlight a critical and underexplored challenge, opening new directions for building reliable voice interface systems.
- Abstract(参考訳): 視覚言語モデルにおける幻覚は、画像テキスト設定の信頼性を調査するベンチマークを用いて広範囲に研究されてきた。
対照的に、マルチモーダル・幻覚に対する音声クエリの効果は、音声駆動インタフェースの役割が増大しているにもかかわらず、明らかにされていない。
本研究では,多モーダル大言語モデルにおける音声入力が幻覚に与える影響について検討する。
本稿では,RePOPEベンチマークの音声拡張であるRePOPE-Spkについて述べる。
RePOPE-Spkを用いて,プロプライエタリモデルとオープンソースモデルの両方を体系的に評価する。
実験結果から, クェリが書かれた場合, クェリが話される場合, クリーン音声では3%, 環境騒音では最大20%の誤差が増加することがわかった。
入力順序とクエリ長は、ロバスト性にさらに影響を及ぼすが、マルチショットプロンプトや連鎖推論のような戦略は、部分的だが不十分な緩和を提供する。
これらの知見は、信頼性の高い音声インターフェースシステムを構築するための新たな方向性を開拓する上で、重要かつ過小評価された課題を浮き彫りにしている。
関連論文リスト
- Multi-stage Prompt Refinement for Mitigating Hallucinations in Large Language Models [49.435669307386156]
MPR(Multi-stage Prompt Refinement)は、複数のステージにわたる不整形プロンプトを体系的に改善するためのフレームワークである。
MPRは、追加の文脈でプロンプトの明快さを反復的に強化し、最も関連する入力を優先順位付けするためにランク付けされた自己回帰機構を使用する。
幻覚ベンチマークの結果、MPRは原型と比較して85%以上の勝利率を達成した。
論文 参考訳(メタデータ) (2025-10-14T00:31:36Z) - Counterfactual Probing for Hallucination Detection and Mitigation in Large Language Models [0.0]
本研究では,大規模言語モデルにおける幻覚の検出と緩和のための新しいアプローチである,対物探索を提案する。
提案手法は, 疑わしいが微妙な事実誤りを含む反事実文を動的に生成し, これらの摂動に対するモデルの感度を評価する。
論文 参考訳(メタデータ) (2025-08-03T17:29:48Z) - Correcting Hallucinations in News Summaries: Exploration of Self-Correcting LLM Methods with External Knowledge [5.065947993017158]
大規模言語モデル(LLM)は、一貫性のあるテキストを生成する優れた能力を示している。
彼らは幻覚の問題に悩まされ、実際には不正確な声明を出している。
本稿では,3つの検索エンジンから得られた証拠を用いて,幻覚の要約を正す手法を用いて,最先端の自己修正システム2つについて検討する。
論文 参考訳(メタデータ) (2025-06-24T13:20:31Z) - Towards Long Context Hallucination Detection [49.195854802543714]
大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示している。
それらは文脈の幻覚に傾向があり、与えられた文脈に不一致または矛盾した情報を生成する。
本稿では,BERTのような事前学習したエンコーダモデルを用いて,長期のコンテキストを処理し,文脈の幻覚を効果的に検出するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-04-28T03:47:05Z) - Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
我々は2万以上の実世界のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。
関係幻覚を体系的に定義し、知覚的視点と認知的視点を統合するとともに、Visual Genomeのシーングラフデータセットを用いて関係ベースのコーパスを構築する。
本稿では,Reefknotを含む3つのデータセットに対して,幻覚率を平均9.75%削減する信頼性に基づく新たな緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Comparing Hallucination Detection Metrics for Multilingual Generation [62.97224994631494]
本稿では,各言語にまたがって生成した伝記要約における幻覚を,様々な事実の幻覚検出指標がいかによく識別するかを評価する。
自動測度が相互にどのように相関するか, 事実判断に一致しているかを比較検討した。
我々の分析によると、語彙指標は非効率であるが、NLIベースのメトリクスはよく機能し、多くの設定における人間のアノテーションと相関し、しばしば教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2024-02-16T08:10:34Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。