論文の概要: HalLoc: Token-level Localization of Hallucinations for Vision Language Models
- arxiv url: http://arxiv.org/abs/2506.10286v1
- Date: Thu, 12 Jun 2025 01:50:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.525641
- Title: HalLoc: Token-level Localization of Hallucinations for Vision Language Models
- Title(参考訳): HalLoc:視覚言語モデルのための幻覚のトークンレベルの局在化
- Authors: Eunkyu Park, Minyeong Kim, Gunhee Kim,
- Abstract要約: 幻覚は、大きな視覚言語モデルの信頼性に重大な課題をもたらす。
HalLocは、効率的で確率的な幻覚検出のために設計されたデータセットである。
- 参考スコア(独自算出の注目度): 36.12465376767014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucinations pose a significant challenge to the reliability of large vision-language models, making their detection essential for ensuring accuracy in critical applications. Current detection methods often rely on computationally intensive models, leading to high latency and resource demands. Their definitive outcomes also fail to account for real-world scenarios where the line between hallucinated and truthful information is unclear. To address these issues, we propose HalLoc, a dataset designed for efficient, probabilistic hallucination detection. It features 150K token-level annotated samples, including hallucination types, across Visual Question Answering (VQA), instruction-following, and image captioning tasks. This dataset facilitates the development of models that detect hallucinations with graded confidence, enabling more informed user interactions. Additionally, we introduce a baseline model trained on HalLoc, offering low-overhead, concurrent hallucination detection during generation. The model can be seamlessly integrated into existing VLMs, improving reliability while preserving efficiency. The prospect of a robust plug-and-play hallucination detection module opens new avenues for enhancing the trustworthiness of vision-language models in real-world applications. The HalLoc dataset and code are publicly available at: https://github.com/dbsltm/cvpr25_halloc.
- Abstract(参考訳): 幻覚は大きな視覚言語モデルの信頼性に重大な課題をもたらし、その検出は重要なアプリケーションにおける精度を保証するために不可欠である。
現在の検出方法は、しばしば計算集約的なモデルに依存し、高いレイテンシとリソース要求をもたらす。
彼らの決定的な結果は、幻覚情報と真理情報の間の線が不明確である実世界のシナリオも説明できない。
これらの問題に対処するために、効率よく確率論的幻覚を検出するために設計されたデータセットであるHalLocを提案する。
VQA(Visual Question Answering)、インストラクションフォロー、イメージキャプションタスクを含む、トークンレベルの注釈付きサンプルが150Kである。
このデータセットは、信頼度の高い幻覚を検知し、より情報のあるユーザインタラクションを可能にするモデルの開発を容易にする。
さらに、HalLocで訓練されたベースラインモデルを導入し、生成時に低オーバーヘッドで同時に幻覚を検出する。
モデルは既存のVLMにシームレスに統合することができ、効率を保ちながら信頼性を向上させることができる。
堅牢なプラグアンドプレイ幻覚検出モジュールの展望は、現実のアプリケーションにおける視覚言語モデルの信頼性を高めるための新たな道を開く。
HalLocデータセットとコードは、https://github.com/dbsltm/cvpr25_hallocで公開されている。
関連論文リスト
- HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。
本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-04-24T13:40:27Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。