論文の概要: HallE-Switch: Controlling Object Hallucination in Large Vision Language
Models
- arxiv url: http://arxiv.org/abs/2310.01779v2
- Date: Sun, 3 Dec 2023 12:06:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 21:56:37.171926
- Title: HallE-Switch: Controlling Object Hallucination in Large Vision Language
Models
- Title(参考訳): HallE-Switch:大規模視覚言語モデルにおける物体の幻覚制御
- Authors: Bohan Zhai, Shijia Yang, Chenfeng Xu, Sheng Shen, Kurt Keutzer,
Manling Li
- Abstract要約: 詳細な字幕作成に適した GPT-4 支援評価手法である $textitCCEval$ を導入する。
LVLMは既存のVQAベンチマークにおいて最小限のオブジェクト存在幻覚を示すが、提案手法はそのような幻覚への感受性を継続することを示す。
LLaVA$_7B$に比べて幻覚は44%減少し,同じ対象範囲を維持している。
- 参考スコア(独自算出の注目度): 56.13065736533053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current large vision-language models (LVLMs) achieve remarkable progress, yet
there remains significant uncertainty regarding their ability to accurately
apprehend visual details, that is, in performing detailed captioning. To
address this, we introduce $\textit{CCEval}$, a GPT-4 assisted evaluation
method tailored for detailed captioning. Interestingly, while LVLMs demonstrate
minimal object existence hallucination in existing VQA benchmarks, our proposed
evaluation reveals continued susceptibility to such hallucinations. In this
paper, we make the first attempt to investigate such hallucination from
different aspects, including image resolution, the language decoder size, and
instruction data amount, quality, granularity. Our findings underscore the
unwarranted inference when the language description includes details at a finer
object granularity than what the vision module can ground or verify, thus
inducing hallucination. To control such hallucinations, we further attribute
the reliability of captioning to contextual knowledge (involving only
contextually grounded objects) and parametric knowledge (containing inferred
objects by the model). Thus, we introduce $\textit{HallE-Switch}$, a
controllable LVLM in terms of $\textbf{Hall}$ucination in object
$\textbf{E}$xistence. HallE-Switch can condition the captioning to shift
between (i) exclusively depicting contextual knowledge for grounded objects and
(ii) blending it with parametric knowledge to imagine inferred objects. Our
method reduces hallucination by 44% compared to LLaVA$_{7B}$ and maintains the
same object coverage.
- Abstract(参考訳): 現在の大型視覚言語モデル(lvlms)は著しい進歩を遂げているが、視覚の詳細を正確に把握する能力、すなわち詳細なキャプションの実行については、大きな不確実性が残っている。
そこで我々は,詳細な字幕作成に適した GPT-4 支援評価手法である $\textit{CCEval}$ を導入する。
興味深いことに、既存のVQAベンチマークでは、LVLMは最小限のオブジェクト存在幻覚を示すが、提案した評価は、そのような幻覚に対する継続的な感受性を示す。
本稿では,画像解像度,言語デコーダサイズ,命令データ量,品質,粒度など,さまざまな側面からその幻覚を調べる最初の試みを行う。
言語記述が視覚モジュールの接地や検証よりも細かな物体の粒度の詳細を含む場合, 幻覚を誘発する際の不規則な推論の根拠となる。
このような幻覚を制御するために、キャプションの信頼性は文脈的知識(文脈的接地対象のみを含む)とパラメトリック知識(モデルによる推論対象を含む)に比例する。
したがって、オブジェクト $\textbf{Hall}$xistence における $\textbf{Hall}$ucination という用語で制御可能な LVLM である $\textit{HallE-Switch}$ を導入する。
HallE-Switchはキャプションの切り替えを条件にできる
(i)接地対象の文脈知識を専ら描くこと、及び
(ii)推測対象を想像するためにパラメトリック知識とブレンドすること。
LLaVA$_{7B}$に比べて幻覚は44%減少し,同じ対象範囲を維持している。
関連論文リスト
- Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - ALOHa: A New Measure for Hallucination in Captioning Models [61.007542765171586]
既存の物体幻覚の計量であるCHAIRは、MS COCOオブジェクトとシノニムの固定セットに限られる。
そこで我々は,大規模言語モデル(LLM)を利用して物体の幻覚を測定する,最新のオープン語彙メトリックALOHaを提案する。
ALOHaはHAT上のCHAIRよりも13.6%多くの幻覚物質を正しく同定することを示す。
論文 参考訳(メタデータ) (2024-04-03T17:59:36Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Mitigating Fine-Grained Hallucination by Fine-Tuning Large
Vision-Language Models with Caption Rewrites [18.640459366439917]
このフレームワークは,ChatGPTを用いた字幕の書き直しと,書き直された字幕上の命令調整されたLVLMの微調整という2つのコンポーネントから構成される。
実験の結果,ReCaptionは様々なLVLMオプションに対して,粒度の細かいオブジェクト幻覚を効果的に低減し,テキスト生成品質を向上することを示した。
論文 参考訳(メタデータ) (2023-12-04T07:43:02Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。