Fugu-MT 論文翻訳(概要): Instruction Lens Score: Your Instruction Contributes a Powerful Object Hallucination Detector for Multimodal Large Language Models

論文の概要: Instruction Lens Score: Your Instruction Contributes a Powerful Object Hallucination Detector for Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2605.12258v1
Date: Tue, 12 May 2026 15:27:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-13 21:48:56.960227
Title: Instruction Lens Score: Your Instruction Contributes a Powerful Object Hallucination Detector for Multimodal Large Language Models
Title（参考訳）: インストラクションレンズスコア:マルチモーダル大言語モデルのための強力な物体幻覚検出器
Authors: Runhe Lai, Xinhua Lu, Yanqi Wu, Jinlun Ye, Weijiang Yu, Ruixuan Wang,
Abstract要約: 本稿では,命令トークンの埋め込みを詳細に解析し,視覚情報を暗黙的に符号化することを明らかにする。本稿では,Calibrated Local Score とContext Consistency Score を組み合わせた Instruction Lens Score (InsLen) を提案する。提案手法は補助モデルや追加訓練に頼ることなく、プラグアンドプレイ物体幻覚検出器として機能する。
参考スコア（独自算出の注目度）: 13.716345458795523
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal large language models (MLLMs) have achieved remarkable progress, yet the object hallucination remains a critical challenge for reliable deployment. In this paper, we present an in-depth analysis of instruction token embeddings and reveal that they implicitly encode visual information while effectively filtering erroneous information introduced by misleading visual embeddings. Building on this insight, we propose the Instruction Lens Score (InsLen), which combines a Calibrated Local Score with a Context Consistency Score that measures context consistency of the object tokens. The proposed approach serves as a plug-and-play object hallucination detector without relying on auxiliary models or additional training. Extensive experiments across multiple benchmarks and diverse MLLM architectures demonstrate that InsLen consistently outperforms existing hallucination detection methods, highlighting its effectiveness and robustness. The code is available at https://github.com/Fraserlairh/Instruction-Lens-Score.
Abstract（参考訳）: マルチモーダルな大規模言語モデル(MLLM)は目覚ましい進歩を遂げているが、オブジェクト幻覚は信頼性の高いデプロイメントにおいて重要な課題である。本稿では,命令トークンの埋め込みを詳細に解析し,視覚情報を暗黙的にエンコードし,誤った視覚埋め込みによって引き起こされる誤情報を効果的にフィルタリングすることを明らかにする。この知見に基づいて,Calibrated Local Score とContext Consistency Score を組み合わせた Instruction Lens Score (InsLen) を提案する。提案手法は補助モデルや追加訓練に頼ることなく、プラグアンドプレイ物体幻覚検出器として機能する。複数のベンチマークと多様なMLLMアーキテクチャにわたる大規模な実験により、InsLenは既存の幻覚検出方法より一貫して優れており、その有効性と堅牢性を強調している。コードはhttps://github.com/Fraserlairh/Instruction-Lens-Scoreで公開されている。

関連論文リスト

Beyond Single Models: Mitigating Multimodal Hallucinations via Adaptive Token Ensemble Decoding [41.828387997311474]
LVLM(Large Vision-Language Models)は画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて,近年顕著な成果を上げている。それらは、まだ存在しない、または誤認されたオブジェクトの記述を生成する、オブジェクト幻覚の傾向にある。本稿では,複数のLVLMからの予測を集約することで幻覚を緩和する,学習不要でトークンレベルのアンサンブルフレームワークであるAdaptive Token Ensemble Decoding (ated)を提案する。
論文参考訳（メタデータ） (2025-10-21T06:11:24Z)
A Multimodal Depth-Aware Method For Embodied Reference Understanding [56.30142869506262]
Embodied Reference Understandingでは、言語命令とポインティングキューの両方に基づいて、視覚的なシーンで対象のオブジェクトを識別する必要がある。本稿では,データ拡張,深度マップのモダリティ,深度認識決定モジュールを共同で活用する新しいERUフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-09T14:32:21Z)
Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation [59.40886078302025]
マルチモーダル大規模言語モデル(MLLM)は、視覚入力と自然言語出力の整合性を示す。しかし、生成したトークンが視覚的モダリティに依存する範囲は、いまだに理解されていない。 MLLMにおける自己回帰トークン生成を説明するための軽量なブラックボックスフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-26T15:38:42Z)
CutPaste&Find: Efficient Multimodal Hallucination Detector with Visual-aid Knowledge Base [29.477973983931083]
LVLM出力の幻覚を検出する軽量でトレーニング不要なフレームワークであるCutPaste&Findを提案する。私たちのフレームワークの中核は、リッチなエンティティ属性関係と関連するイメージ表現をエンコードするビジュアルエイドの知識ベースです。類似度スコアを改良するスケーリング係数を導入し, 地中画像とテキストのペアであっても, 最適下アライメントの問題を緩和する。
論文参考訳（メタデータ） (2025-02-18T07:06:36Z)
Detecting Hallucinations in Large Language Model Generation: A Token Probability Approach [0.0]
LLM(Large Language Models)は、幻覚と呼ばれる不正確な出力を生成する。本稿では,トークンから得られる4つの数値的特徴と,他の評価者から得られる語彙的確率を用いた教師付き学習手法を提案する。この方法は有望な結果をもたらし、3つの異なるベンチマークで複数のタスクで最先端の結果を上回る。
論文参考訳（メタデータ） (2024-05-30T03:00:47Z)
CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-21T08:21:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。