論文の概要: Taming Object Hallucinations with Verified Atomic Confidence Estimation
- arxiv url: http://arxiv.org/abs/2511.09228v1
- Date: Thu, 13 Nov 2025 01:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.476133
- Title: Taming Object Hallucinations with Verified Atomic Confidence Estimation
- Title(参考訳): 検証された原子信頼度推定による物体の幻覚のモデル化
- Authors: Jiarui Liu, Weihao Xuan, Zhijing Jin, Mona Diab,
- Abstract要約: TACOは,外部視力の専門家を頼らずに,自己検証と信頼度校正を通じて幻覚を緩和するフレームワークである。
TACOは応答をアトミックなクエリに分解し、ワードの感度を低下させるためにパラフレーズ化し、自信を自信(ブラックボックス)または自信(グレイボックス)アグリゲーションを使って推定する。
- 参考スコア(独自算出の注目度): 18.54793854791167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) often suffer from hallucinations, particularly errors in object existence, attributes, or relations, which undermine their reliability. We introduce TACO (Verified Atomic Confidence Estimation), a simple framework that mitigates hallucinations through self-verification and confidence calibration without relying on external vision experts. TACO decomposes responses into atomic queries, paraphrases them to reduce sensitivity to wording, and estimates confidence using self-consistency (black-box) or self-confidence (gray-box) aggregation, before refining answers with a language model. Experiments on five benchmarks (POPE, MME, HallusionBench, AMBER, and MM-Hal Bench) with two MLLMs (\texttt{LLaVA-1.5-7B} and \texttt{CogVLM2}) show that TACO consistently outperforms direct prompting and Visual Contrastive Decoding, reduces systematic biases, and improves confidence calibration, demonstrating its effectiveness in enhancing the faithfulness of MLLMs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)はしばしば幻覚、特にオブジェクトの存在、属性、関係の誤りに悩まされ、信頼性を損なう。
TACO(Verified Atomic Confidence Estimation)は、外部視力の専門家を頼らずに自己検証と信頼度校正を通じて幻覚を緩和するシンプルなフレームワークである。
TACOは、応答をアトミックなクエリに分解し、単語に対する感度を低下させるためにパラフレーズ化し、自信を自信(ブラックボックス)または自信(グレイボックス)アグリゲーションを用いて推定し、言語モデルで回答を精査する。
5つのベンチマーク(POPE, MME, HallusionBench, AMBER, MM-Hal Bench)と2つのMLLM(\texttt{LLaVA-1.5-7B} と \textt{CogVLM2})による実験により、TACOは直接的プロンプトと視覚的コントラストデコーディングを一貫して上回り、系統的バイアスを低減し、信頼性の校正を改善し、MLLMの忠実さを高める効果を示した。
関連論文リスト
- BrowseConf: Confidence-Guided Test-Time Scaling for Web Agents [58.05949210993854]
本研究では,長期にわたる行動の後,言語化された信頼度スコアを用いて,検索エージェントが自身の信頼を伝達できるかどうかを検討する。
本研究では,信頼度スコアを用いて回答の質を判断し,信頼度レベルに達するまで再度試すテスト時間スケーリング(TTS)手法を提案する。
論文 参考訳(メタデータ) (2025-10-27T15:58:51Z) - Calibrating Verbalized Confidence with Self-Generated Distractors [24.56911906044891]
DINCO(Distractor-Normalized Coherence)を紹介する。
DINCOは、LLMの予測可能性バイアスを推定し、いくつかの自己生成障害に対してモデルに独立して信頼性を持たせることによって説明している。
我々は、自己整合性の一般的なアプローチを、サンプル世代間でのコヒーレンスを活用すること、および非互換なクレーム上での検証におけるコヒーレンスを活用することとして、言語化された信頼を正規化したものである。
論文 参考訳(メタデータ) (2025-09-29T21:41:22Z) - ConfTuner: Training Large Language Models to Express Their Confidence Verbally [58.63318088243125]
大規模言語モデル(LLM)は、科学、法律、医療といった高度な領域にますます展開されている。
LLMは、しばしば「過信」(overconfidence)として知られる、高い信頼で誤った答えを生成するために観察される。
論文 参考訳(メタデータ) (2025-08-26T09:25:32Z) - How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models [28.62988505317048]
大きな言語モデル(LLM)は、非常に矛盾する振る舞いを示す。
LLMは、質問されたときに過度に疑念を抱きがちである一方で、最初の回答において、頑強に過度に自信を抱くように見える。
LLMは選択支援バイアスを顕著に示し、回答に対する信頼度を補強し、向上させることを示す。
論文 参考訳(メタデータ) (2025-07-03T18:57:43Z) - Verbalized Confidence Triggers Self-Verification: Emergent Behavior Without Explicit Reasoning Supervision [12.287123198288079]
大規模言語モデル(LLM)の安全な配置には不確実性校正が不可欠である
我々は,スカラー信頼ラベルのみを用いた教師付き微調整が,言語モデルの自己検証行動を引き出すのに十分であることがわかった。
キャリブレーションされた不確実性に基づいて,テスト時間スケーリングによる性能向上を図った簡易な再考手法を提案する。
論文 参考訳(メタデータ) (2025-06-04T08:56:24Z) - Improving the Reliability of LLMs: Combining CoT, RAG, Self-Consistency, and Self-Verification [1.5095869543963976]
大規模言語モデル(LLM)は、自信はあるが不正確または無関係な情報を生成する。
幻覚は、複雑でオープンなタスクへの応用において重要な限界である。
本研究では,CoT(Chain-of- Thought)とRAG(Research-augmented Generation)を組み合わせることで幻覚を抑える方法について検討する。
論文 参考訳(メタデータ) (2025-05-13T23:57:02Z) - On Verbalized Confidence Scores for LLMs [25.160810008907397]
大規模言語モデル(LLM)の不確実性定量化は、その応答に対するより人間的な信頼を確立することができる。
この研究は、出力トークンの一部として信頼度スコアで不確実性を言語化するようLLM自身に求めることに重点を置いている。
我々は、異なるデータセット、モデル、およびプロンプトメソッドに関して、言語化された信頼度スコアの信頼性を評価する。
論文 参考訳(メタデータ) (2024-12-19T11:10:36Z) - Fact-Level Confidence Calibration and Self-Correction [64.40105513819272]
本稿では,事実レベルでの信頼度と妥当性の重み付けを校正するFact-Levelフレームワークを提案する。
また,信頼度の高い自己補正(textbfConFix$)も開発した。
論文 参考訳(メタデータ) (2024-11-20T14:15:18Z) - Mirror-Consistency: Harnessing Inconsistency in Majority Voting [37.707204723835765]
本稿では,標準的な自己整合性アプローチの強化であるミラー・一貫性について述べる。
Mirror-Consistencyは「反射鏡」を自己組織化復号プロセスに組み込む。
ミラー一貫性は自己整合性と比較して,推理精度と信頼性校正の両面において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-07T03:41:08Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。