論文の概要: HallE-Switch: Controlling Object Hallucination in Large Vision Language
Models
- arxiv url: http://arxiv.org/abs/2310.01779v2
- Date: Sun, 3 Dec 2023 12:06:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 21:56:37.171926
- Title: HallE-Switch: Controlling Object Hallucination in Large Vision Language
Models
- Title(参考訳): HallE-Switch:大規模視覚言語モデルにおける物体の幻覚制御
- Authors: Bohan Zhai, Shijia Yang, Chenfeng Xu, Sheng Shen, Kurt Keutzer,
Manling Li
- Abstract要約: 詳細な字幕作成に適した GPT-4 支援評価手法である $textitCCEval$ を導入する。
LVLMは既存のVQAベンチマークにおいて最小限のオブジェクト存在幻覚を示すが、提案手法はそのような幻覚への感受性を継続することを示す。
LLaVA$_7B$に比べて幻覚は44%減少し,同じ対象範囲を維持している。
- 参考スコア(独自算出の注目度): 56.13065736533053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current large vision-language models (LVLMs) achieve remarkable progress, yet
there remains significant uncertainty regarding their ability to accurately
apprehend visual details, that is, in performing detailed captioning. To
address this, we introduce $\textit{CCEval}$, a GPT-4 assisted evaluation
method tailored for detailed captioning. Interestingly, while LVLMs demonstrate
minimal object existence hallucination in existing VQA benchmarks, our proposed
evaluation reveals continued susceptibility to such hallucinations. In this
paper, we make the first attempt to investigate such hallucination from
different aspects, including image resolution, the language decoder size, and
instruction data amount, quality, granularity. Our findings underscore the
unwarranted inference when the language description includes details at a finer
object granularity than what the vision module can ground or verify, thus
inducing hallucination. To control such hallucinations, we further attribute
the reliability of captioning to contextual knowledge (involving only
contextually grounded objects) and parametric knowledge (containing inferred
objects by the model). Thus, we introduce $\textit{HallE-Switch}$, a
controllable LVLM in terms of $\textbf{Hall}$ucination in object
$\textbf{E}$xistence. HallE-Switch can condition the captioning to shift
between (i) exclusively depicting contextual knowledge for grounded objects and
(ii) blending it with parametric knowledge to imagine inferred objects. Our
method reduces hallucination by 44% compared to LLaVA$_{7B}$ and maintains the
same object coverage.
- Abstract(参考訳): 現在の大型視覚言語モデル(lvlms)は著しい進歩を遂げているが、視覚の詳細を正確に把握する能力、すなわち詳細なキャプションの実行については、大きな不確実性が残っている。
そこで我々は,詳細な字幕作成に適した GPT-4 支援評価手法である $\textit{CCEval}$ を導入する。
興味深いことに、既存のVQAベンチマークでは、LVLMは最小限のオブジェクト存在幻覚を示すが、提案した評価は、そのような幻覚に対する継続的な感受性を示す。
本稿では,画像解像度,言語デコーダサイズ,命令データ量,品質,粒度など,さまざまな側面からその幻覚を調べる最初の試みを行う。
言語記述が視覚モジュールの接地や検証よりも細かな物体の粒度の詳細を含む場合, 幻覚を誘発する際の不規則な推論の根拠となる。
このような幻覚を制御するために、キャプションの信頼性は文脈的知識(文脈的接地対象のみを含む)とパラメトリック知識(モデルによる推論対象を含む)に比例する。
したがって、オブジェクト $\textbf{Hall}$xistence における $\textbf{Hall}$ucination という用語で制御可能な LVLM である $\textit{HallE-Switch}$ を導入する。
HallE-Switchはキャプションの切り替えを条件にできる
(i)接地対象の文脈知識を専ら描くこと、及び
(ii)推測対象を想像するためにパラメトリック知識とブレンドすること。
LLaVA$_{7B}$に比べて幻覚は44%減少し,同じ対象範囲を維持している。
関連論文リスト
- HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。
これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。
本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文 参考訳(メタデータ) (2024-09-30T15:52:05Z) - Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? [53.89380284760555]
大型視覚言語モデル(LVLM)は、画像に見つからない概念に言及するキャプションを生成する。
これらの幻覚は、LVLMの信頼性を損なうものであり、ユビキタス採用の主な障害であることは間違いない。
最近の研究は、画像領域やオブジェクトをテキストスパンに明示的にアライメントする、接地目的の追加は、LVLM幻覚の量を減らすことを示唆している。
論文 参考訳(メタデータ) (2024-06-20T16:56:11Z) - ANAH: Analytical Annotation of Hallucinations in Large Language Models [65.12177400764506]
我々は、大言語モデルにおける幻覚の@textbfAN$alytical $textbfA$nnotationを提供するデータセットである$textbfANAH$を提示する。
ANAHは、700以上のトピックをカバーする4.3k LLM応答のための12kの文レベルのアノテーションで構成されている。
幻覚アノテーションの微粒化により, LLMの幻覚が解答に蓄積されることを定量的に確認し, ANAHを用いて幻覚アノテーションを訓練し, 評価する。
論文 参考訳(メタデータ) (2024-05-30T17:54:40Z) - MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification [1.3654846342364308]
トークンレベルの幻覚を無視可能なコストで検出する軽量バイナリ分類器であるMetaTokenを紹介する。
統計的解析から,これまでの研究で注目されていたLVLMの幻覚の要因を明らかにした。
提案手法の有効性を示す4種類のLVLMについて検討した。
論文 参考訳(メタデータ) (2024-05-29T15:28:42Z) - ALOHa: A New Measure for Hallucination in Captioning Models [61.007542765171586]
既存の物体幻覚の計量であるCHAIRは、MS COCOオブジェクトとシノニムの固定セットに限られる。
そこで我々は,大規模言語モデル(LLM)を利用して物体の幻覚を測定する,最新のオープン語彙メトリックALOHaを提案する。
ALOHaはHAT上のCHAIRよりも13.6%多くの幻覚物質を正しく同定することを示す。
論文 参考訳(メタデータ) (2024-04-03T17:59:36Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。