Fugu-MT 論文翻訳(概要): HalLoc: Token-level Localization of Hallucinations for Vision Language Models

論文の概要: HalLoc: Token-level Localization of Hallucinations for Vision Language Models

arxiv url: http://arxiv.org/abs/2506.10286v1
Date: Thu, 12 Jun 2025 01:50:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.525641
Title: HalLoc: Token-level Localization of Hallucinations for Vision Language Models
Title（参考訳）: HalLoc:視覚言語モデルのための幻覚のトークンレベルの局在化
Authors: Eunkyu Park, Minyeong Kim, Gunhee Kim,
Abstract要約: 幻覚は、大きな視覚言語モデルの信頼性に重大な課題をもたらす。 HalLocは、効率的で確率的な幻覚検出のために設計されたデータセットである。
参考スコア（独自算出の注目度）: 36.12465376767014
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hallucinations pose a significant challenge to the reliability of large vision-language models, making their detection essential for ensuring accuracy in critical applications. Current detection methods often rely on computationally intensive models, leading to high latency and resource demands. Their definitive outcomes also fail to account for real-world scenarios where the line between hallucinated and truthful information is unclear. To address these issues, we propose HalLoc, a dataset designed for efficient, probabilistic hallucination detection. It features 150K token-level annotated samples, including hallucination types, across Visual Question Answering (VQA), instruction-following, and image captioning tasks. This dataset facilitates the development of models that detect hallucinations with graded confidence, enabling more informed user interactions. Additionally, we introduce a baseline model trained on HalLoc, offering low-overhead, concurrent hallucination detection during generation. The model can be seamlessly integrated into existing VLMs, improving reliability while preserving efficiency. The prospect of a robust plug-and-play hallucination detection module opens new avenues for enhancing the trustworthiness of vision-language models in real-world applications. The HalLoc dataset and code are publicly available at: https://github.com/dbsltm/cvpr25_halloc.
Abstract（参考訳）: 幻覚は大きな視覚言語モデルの信頼性に重大な課題をもたらし、その検出は重要なアプリケーションにおける精度を保証するために不可欠である。現在の検出方法は、しばしば計算集約的なモデルに依存し、高いレイテンシとリソース要求をもたらす。彼らの決定的な結果は、幻覚情報と真理情報の間の線が不明確である実世界のシナリオも説明できない。これらの問題に対処するために、効率よく確率論的幻覚を検出するために設計されたデータセットであるHalLocを提案する。 VQA(Visual Question Answering)、インストラクションフォロー、イメージキャプションタスクを含む、トークンレベルの注釈付きサンプルが150Kである。このデータセットは、信頼度の高い幻覚を検知し、より情報のあるユーザインタラクションを可能にするモデルの開発を容易にする。さらに、HalLocで訓練されたベースラインモデルを導入し、生成時に低オーバーヘッドで同時に幻覚を検出する。モデルは既存のVLMにシームレスに統合することができ、効率を保ちながら信頼性を向上させることができる。堅牢なプラグアンドプレイ幻覚検出モジュールの展望は、現実のアプリケーションにおける視覚言語モデルの信頼性を高めるための新たな道を開く。 HalLocデータセットとコードは、https://github.com/dbsltm/cvpr25_hallocで公開されている。

関連論文リスト

Analyzing and Mitigating Object Hallucination: A Training Bias Perspective [108.09666587800781]
我々は,LVLMのトレーニングデータから,特定の対象を隠蔽した反ファクト画像からなる新しいベンチマークPOPEv2を提案する。現在のLVLMはトレーニングバイアスに悩まされており、トレーニングデータを完全に活用できず、トレーニング中に見られる画像に対してより頻繁に幻覚を与えることができません。 Obliviateは,学習バイアスアンラーニングによる物体幻覚の軽減を目的とした,効率的で軽量な未学習手法である。
論文参考訳（メタデータ） (2025-08-06T15:51:02Z)
HalluLens: LLM Hallucination Benchmark [49.170128733508335]
大規模言語モデル(LLM)は、しばしばユーザ入力やトレーニングデータから逸脱する応答を生成する。本稿では,新たな内因性評価タスクと既存内因性評価タスクを併用した総合幻覚ベンチマークを提案する。
論文参考訳（メタデータ） (2025-04-24T13:40:27Z)
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文参考訳（メタデータ） (2025-04-17T17:59:22Z)
From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文参考訳（メタデータ） (2024-10-09T11:46:32Z)
Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文参考訳（メタデータ） (2024-04-22T14:46:10Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文参考訳（メタデータ） (2024-03-03T02:31:11Z)
AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文参考訳（メタデータ） (2023-09-30T05:20:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。