論文の概要: HEDGE: Hallucination Estimation via Dense Geometric Entropy for VQA with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.12693v1
- Date: Sun, 16 Nov 2025 17:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.485051
- Title: HEDGE: Hallucination Estimation via Dense Geometric Entropy for VQA with Vision-Language Models
- Title(参考訳): HEDGE:視覚言語モデルを用いたVQAのための高密度幾何エントロピーによる幻覚推定
- Authors: Sushant Gautam, Michael A. Riegler, Pål Halvorsen,
- Abstract要約: 視覚言語モデル(VLM)は、オープンエンドの視覚的質問応答を可能にするが、幻覚に苦しむ傾向にある。
我々は、制御された視覚摂動、セマンティッククラスタリング、堅牢な不確実性メトリクスを組み合わせた幻覚検出のための統合フレームワークであるHEDGEを提案する。
- 参考スコア(独自算出の注目度): 4.099133096025821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) enable open-ended visual question answering but remain prone to hallucinations. We present HEDGE, a unified framework for hallucination detection that combines controlled visual perturbations, semantic clustering, and robust uncertainty metrics. HEDGE integrates sampling, distortion synthesis, clustering (entailment- and embedding-based), and metric computation into a reproducible pipeline applicable across multimodal architectures. Evaluations on VQA-RAD and KvasirVQA-x1 with three representative VLMs (LLaVA-Med, Med-Gemma, Qwen2.5-VL) reveal clear architecture- and prompt-dependent trends. Hallucination detectability is highest for unified-fusion models with dense visual tokenization (Qwen2.5-VL) and lowest for architectures with restricted tokenization (Med-Gemma). Embedding-based clustering often yields stronger separation when applied directly to the generated answers, whereas NLI-based clustering remains advantageous for LLaVA-Med and for longer, sentence-level responses. Across configurations, the VASE metric consistently provides the most robust hallucination signal, especially when paired with embedding clustering and a moderate sampling budget (n ~ 10-15). Prompt design also matters: concise, label-style outputs offer clearer semantic structure than syntactically constrained one-sentence responses. By framing hallucination detection as a geometric robustness problem shaped jointly by sampling scale, prompt structure, model architecture, and clustering strategy, HEDGE provides a principled, compute-aware foundation for evaluating multimodal reliability. The hedge-bench PyPI library enables reproducible and extensible benchmarking, with full code and experimental resources available at https://github.com/Simula/HEDGE .
- Abstract(参考訳): 視覚言語モデル(VLM)は、オープンエンドの視覚的質問応答を可能にするが、幻覚に苦しむ傾向にある。
我々は、制御された視覚摂動、セマンティッククラスタリング、堅牢な不確実性メトリクスを組み合わせた幻覚検出のための統合フレームワークであるHEDGEを提案する。
HEDGEはサンプリング、歪み合成、クラスタリング(エンターメントベースおよび埋め込みベース)、およびメートル法計算をマルチモーダルアーキテクチャに適用可能な再現可能なパイプラインに統合する。
VQA-RADとKvasirVQA-x1の3つの代表的VLM(LLaVA-Med、Med-Gemma、Qwen2.5-VL)による評価は、アーキテクチャと即時依存の傾向を明確に示している。
幻覚検出性は、濃密な視覚的トークン化(Qwen2.5-VL)を持つ統合融合モデルでは最も高く、制限されたトークン化(Med-Gemma)を持つアーキテクチャでは最も低い。
埋め込みベースのクラスタリングは、生成した回答に直接適用されると、より強い分離をもたらすことが多いが、NLIベースのクラスタリングはLLaVA-Medやより長い文レベルの応答に有利である。
構成全体にわたって、VASEメートル法は最も堅牢な幻覚信号を提供しており、特に埋め込みクラスタリングと適度なサンプリング予算(n ~ 10-15)と組み合わせればなおさらである。
簡潔でラベルスタイルの出力は、構文的に制約された1文応答よりも明確な意味構造を提供する。
HEDGEは、サンプリングスケール、プロンプト構造、モデルアーキテクチャ、クラスタリング戦略によって構成される幾何学的ロバスト性問題として幻覚検出をフレーミングすることにより、マルチモーダル信頼性を評価するための原則付き計算対応基盤を提供する。
完全なコードと実験リソースがhttps://github.com/Simula/HEDGEで公開されている。
関連論文リスト
- Topic Identification in LLM Input-Output Pairs through the Lens of Information Bottleneck [0.0]
幾何学的クラスタリングのための決定論的情報ボトルネック(DIB)に基づく基本的トピック識別手法を開発した。
我々の重要な貢献は、DIB法を計算効率の良い上界を持つ難解なKL発散項に代えて、高次元データのための実用的なアルゴリズムに変換することである。
論文 参考訳(メタデータ) (2025-08-26T20:00:51Z) - Detecting Token-Level Hallucinations Using Variance Signals: A Reference-Free Approach [0.0]
大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な生成能力を示したが、幻覚に弱いままである。
複数世代にわたるトークンログ確率のばらつきを利用した,参照不要なトークンレベルの幻覚検出フレームワークを提案する。
我々のアプローチは、モデルに依存しず、解釈可能であり、リアルタイムまたはポストホック分析に適している。
論文 参考訳(メタデータ) (2025-07-05T19:20:59Z) - Unsupervised Deep Clustering of MNIST with Triplet-Enhanced Convolutional Autoencoders [0.0]
本研究は、MNIST手書き桁のための高度な教師なしクラスタリングシステムを実装した。
ディープ・ニューラル・オートエンコーダは、画像の最小でも解釈可能な表現を開発するために、フェーズ1のトレーニングプロセスを必要とする。
論文 参考訳(メタデータ) (2025-06-11T18:26:13Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [60.83579255387347]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction [17.989559761931435]
本稿では,WSI分類のための"Fine-fine Visual-Semantic Interaction"フレームワークを提案する。
局所的な視覚パターンと微細な病理的意味論の相互作用を活用することにより、モデルの一般化性を高めるように設計されている。
本手法は, TCGA肺がんデータセットにおいて, 高い一般化性, 強い転移性を示す。
論文 参考訳(メタデータ) (2024-02-29T16:29:53Z) - Learning Multiscale Consistency for Self-supervised Electron Microscopy
Instance Segmentation [48.267001230607306]
本稿では,EMボリュームのマルチスケール一貫性を高める事前学習フレームワークを提案する。
当社のアプローチでは,強力なデータ拡張と弱いデータ拡張を統合することで,Siameseネットワークアーキテクチャを活用している。
効果的にボクセルと機能の一貫性をキャプチャし、EM分析のための転送可能な表現を学習する。
論文 参考訳(メタデータ) (2023-08-19T05:49:13Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。