論文の概要: First Logit Boosting: Visual Grounding Method to Mitigate Object Hallucination in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.00455v1
- Date: Wed, 01 Apr 2026 04:05:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.828632
- Title: First Logit Boosting: Visual Grounding Method to Mitigate Object Hallucination in Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルにおける物体の幻覚軽減のための視覚的接地法
- Authors: Jiwoo Ha, Jongwoo Baek, Jinhyun So,
- Abstract要約: First Logit Boosting (FLB) は、LVLM(Large Vision-Language Models)における長期劣化を軽減するために設計された訓練不要の手法である。
FLBは、最初に生成されたトークンのロジットを格納し、その後のトークン予測に追加し、視覚情報の長期的な崩壊を効果的に軽減する。
実験の結果,FLBは様々なタスク,ベンチマーク,バックボーンモデルにおいて,物体の幻覚を著しく低減することがわかった。
- 参考スコア(独自算出の注目度): 1.4171909857195166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Large Vision-Language Models (LVLMs) have demonstrated remarkable performance across various multimodal tasks that require understanding both visual and linguistic inputs. However, object hallucination -- the generation of nonexistent objects in answers -- remains a persistent challenge. Although several approaches such as retraining and external grounding methods have been proposed to mitigate this issue, they still suffer from high data costs or structural complexity. Training-free methods such as Contrastive Decoding (CD) are more cost-effective, avoiding additional training or external models, but still suffer from long-term decay, where visual grounding weakens and language priors dominate as the generation progresses. In this paper, we propose First Logit Boosting (FLB), a simple yet effective training-free technique designed to alleviate long-term decay in LVLMs. FLB stores the logit of the first generated token and adds it to subsequent token predictions, effectively mitigating long-term decay of visual information. We observe that FLB (1) sustains the visual information embedded in the first token throughout generation, and (2) suppresses hallucinated words through the stabilizing effect of the ``The'' token. Experimental results show that FLB significantly reduces object hallucination across various tasks, benchmarks, and backbone models. Notably, it causes negligible inference overhead, making it highly applicable to real-time multimodal systems. Code is available at https://github.com/jiwooha20/FLB
- Abstract(参考訳): 近年のLVLM(Large Vision-Language Models)は、視覚入力と言語入力の両方を理解する必要がある様々なマルチモーダルタスクにおいて顕著な性能を示している。
しかし、答えに存在しないオブジェクトの生成であるオブジェクト幻覚は、依然として永続的な課題である。
この問題を軽減するために、リトレーニングや外部接地手法などのいくつかのアプローチが提案されているが、それでも高いデータコストや構造的な複雑さに悩まされている。
コントラシティブ・デコーディング(CD)のようなトレーニングなしの手法はコスト効率が良く、追加のトレーニングや外部モデルを避けることができる。
本稿では,LVLMの長期劣化を緩和する簡易かつ効果的なトレーニングフリー手法であるFirst Logit Boosting (FLB)を提案する。
FLBは、最初に生成されたトークンのロジットを格納し、その後のトークン予測に追加し、視覚情報の長期的な崩壊を効果的に軽減する。
FLB(1)は生成過程を通じて第1のトークンに埋め込まれた視覚情報を保持し,(2)「The」トークンの安定化効果により幻覚語を抑圧する。
実験の結果,FLBは様々なタスク,ベンチマーク,バックボーンモデルにおいて,物体の幻覚を著しく低減することがわかった。
特に、これは無視可能な推測オーバーヘッドを引き起こし、リアルタイムマルチモーダルシステムに適用できる。
コードはhttps://github.com/jiwooha20/FLBで公開されている。
関連論文リスト
- PruneHal: Reducing Hallucinations in Multi-modal Large Language Models through Adaptive KV Cache Pruning [87.35309934860938]
大型言語モデル(MLLM)における幻覚は、視覚トークンに割り当てられた注意不足と強く関連している。
我々は、適応的なKVキャッシュプルーニングを活用し、重要な視覚情報に焦点をあてるトレーニングフリーでシンプルで効果的な方法である textbfPruneHal を提案する。
論文 参考訳(メタデータ) (2025-10-22T02:41:07Z) - Beyond Single Models: Mitigating Multimodal Hallucinations via Adaptive Token Ensemble Decoding [41.828387997311474]
LVLM(Large Vision-Language Models)は画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて,近年顕著な成果を上げている。
それらは、まだ存在しない、または誤認されたオブジェクトの記述を生成する、オブジェクト幻覚の傾向にある。
本稿では,複数のLVLMからの予測を集約することで幻覚を緩和する,学習不要でトークンレベルのアンサンブルフレームワークであるAdaptive Token Ensemble Decoding (ated)を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:11:24Z) - Exposing Hallucinations To Suppress Them: VLMs Representation Editing With Generative Anchors [8.089908150148554]
マルチモーダル大規模言語モデル (MLLM) は様々な視覚言語タスクにおいて顕著な成功を収めている。
MLLMは幻覚に非常に敏感であり、視覚的証拠とは相容れない内容を生み出す。
本研究では,幻覚の緩和のための訓練不要で自己指導的な方法を提案する。
論文 参考訳(メタデータ) (2025-09-26T07:24:28Z) - Analyzing and Mitigating Object Hallucination: A Training Bias Perspective [108.09666587800781]
我々は,LVLMのトレーニングデータから,特定の対象を隠蔽した反ファクト画像からなる新しいベンチマークPOPEv2を提案する。
現在のLVLMはトレーニングバイアスに悩まされており、トレーニングデータを完全に活用できず、トレーニング中に見られる画像に対してより頻繁に幻覚を与えることができません。
Obliviateは,学習バイアスアンラーニングによる物体幻覚の軽減を目的とした,効率的で軽量な未学習手法である。
論文 参考訳(メタデータ) (2025-08-06T15:51:02Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Mitigating Object Hallucination via Concentric Causal Attention [71.27325347912823]
物体の幻覚は回転位置と密接に結びついていることを示す。
RoPEは、広く採用されている位置依存モデリング設計である。
簡易かつ効果的な位置アライメント戦略であるConcentric Causal Attention (CCA)を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:54:53Z) - Self-Introspective Decoding: Alleviating Hallucinations for Large Vision-Language Models [30.26685485474035]
LVLM(Large Vision-Language Models)は近年急速に進歩している。
幻覚問題として知られる問題は、重大なボトルネックとして浮上している。
自己検査復号法(Self-Introspective Decoding, SID)を提案する。
論文 参考訳(メタデータ) (2024-08-04T13:50:17Z) - Less is More: Mitigating Multimodal Hallucination from an EOS Decision Perspective [55.41815486466186]
大規模なマルチモーダルモデル(LMM)は、視覚的な入力に存在しないコンテンツを生成するため、しばしば多モーダル幻覚に悩まされる。
本稿では,モデルが生成をタイムリーに終了する能力を阻害する,過度に詳細なトレーニングデータについて検討する。
生成したテキストと画像を比較し,シーケンス全体の完全性を評価する。
論文 参考訳(メタデータ) (2024-02-22T13:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。