Fugu-MT 論文翻訳(概要): HallE-Switch: Controlling Object Hallucination in Large Vision Language Models

論文の概要: HallE-Switch: Controlling Object Hallucination in Large Vision Language Models

arxiv url: http://arxiv.org/abs/2310.01779v2
Date: Sun, 3 Dec 2023 12:06:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 21:56:37.171926
Title: HallE-Switch: Controlling Object Hallucination in Large Vision Language Models
Title（参考訳）: HallE-Switch:大規模視覚言語モデルにおける物体の幻覚制御
Authors: Bohan Zhai, Shijia Yang, Chenfeng Xu, Sheng Shen, Kurt Keutzer, Manling Li
Abstract要約: 詳細な字幕作成に適した GPT-4 支援評価手法である $textitCCEval$ を導入する。 LVLMは既存のVQAベンチマークにおいて最小限のオブジェクト存在幻覚を示すが、提案手法はそのような幻覚への感受性を継続することを示す。 LLaVA$_7B$に比べて幻覚は44%減少し,同じ対象範囲を維持している。
参考スコア（独自算出の注目度）: 56.13065736533053
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current large vision-language models (LVLMs) achieve remarkable progress, yet there remains significant uncertainty regarding their ability to accurately apprehend visual details, that is, in performing detailed captioning. To address this, we introduce $\textit{CCEval}$, a GPT-4 assisted evaluation method tailored for detailed captioning. Interestingly, while LVLMs demonstrate minimal object existence hallucination in existing VQA benchmarks, our proposed evaluation reveals continued susceptibility to such hallucinations. In this paper, we make the first attempt to investigate such hallucination from different aspects, including image resolution, the language decoder size, and instruction data amount, quality, granularity. Our findings underscore the unwarranted inference when the language description includes details at a finer object granularity than what the vision module can ground or verify, thus inducing hallucination. To control such hallucinations, we further attribute the reliability of captioning to contextual knowledge (involving only contextually grounded objects) and parametric knowledge (containing inferred objects by the model). Thus, we introduce $\textit{HallE-Switch}$, a controllable LVLM in terms of $\textbf{Hall}$ucination in object $\textbf{E}$xistence. HallE-Switch can condition the captioning to shift between (i) exclusively depicting contextual knowledge for grounded objects and (ii) blending it with parametric knowledge to imagine inferred objects. Our method reduces hallucination by 44% compared to LLaVA$_{7B}$ and maintains the same object coverage.
Abstract（参考訳）: 現在の大型視覚言語モデル(lvlms)は著しい進歩を遂げているが、視覚の詳細を正確に把握する能力、すなわち詳細なキャプションの実行については、大きな不確実性が残っている。そこで我々は,詳細な字幕作成に適した GPT-4 支援評価手法である $\textit{CCEval}$ を導入する。興味深いことに、既存のVQAベンチマークでは、LVLMは最小限のオブジェクト存在幻覚を示すが、提案した評価は、そのような幻覚に対する継続的な感受性を示す。本稿では,画像解像度,言語デコーダサイズ,命令データ量,品質,粒度など,さまざまな側面からその幻覚を調べる最初の試みを行う。言語記述が視覚モジュールの接地や検証よりも細かな物体の粒度の詳細を含む場合, 幻覚を誘発する際の不規則な推論の根拠となる。このような幻覚を制御するために、キャプションの信頼性は文脈的知識(文脈的接地対象のみを含む)とパラメトリック知識(モデルによる推論対象を含む)に比例する。したがって、オブジェクト $\textbf{Hall}$xistence における $\textbf{Hall}$ucination という用語で制御可能な LVLM である $\textit{HallE-Switch}$ を導入する。 HallE-Switchはキャプションの切り替えを条件にできる (i)接地対象の文脈知識を専ら描くこと、及び (ii)推測対象を想像するためにパラメトリック知識とブレンドすること。 LLaVA$_{7B}$に比べて幻覚は44%減少し,同じ対象範囲を維持している。

関連論文リスト

A Comprehensive Analysis for Visual Object Hallucination in Large Vision-Language Models [30.037505914306504]
視覚言語モデル(LVLM)はマルチモーダルタスクにおいて顕著な機能を示す。 LVLMはクエリ入力に基づいて不正確なビジュアルオブジェクト関連情報を生成し、安全性と信頼性に関する誤った情報や懸念を引き起こす可能性がある。本稿では,LLaVAライクなLVLMの各コンポーネントを分析し,潜在的なエラーの発生源とその影響を同定する。
論文参考訳（メタデータ） (2025-05-04T01:47:58Z)
HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文参考訳（メタデータ） (2024-09-30T15:52:05Z)
Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? [53.89380284760555]
大型視覚言語モデル(LVLM)は、画像に見つからない概念に言及するキャプションを生成する。これらの幻覚は、LVLMの信頼性を損なうものであり、ユビキタス採用の主な障害であることは間違いない。最近の研究は、画像領域やオブジェクトをテキストスパンに明示的にアライメントする、接地目的の追加は、LVLM幻覚の量を減らすことを示唆している。
論文参考訳（メタデータ） (2024-06-20T16:56:11Z)
ANAH: Analytical Annotation of Hallucinations in Large Language Models [65.12177400764506]
我々は、大言語モデルにおける幻覚の@textbfAN$alytical $textbfA$nnotationを提供するデータセットである$textbfANAH$を提示する。 ANAHは、700以上のトピックをカバーする4.3k LLM応答のための12kの文レベルのアノテーションで構成されている。幻覚アノテーションの微粒化により, LLMの幻覚が解答に蓄積されることを定量的に確認し, ANAHを用いて幻覚アノテーションを訓練し, 評価する。
論文参考訳（メタデータ） (2024-05-30T17:54:40Z)
MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification [1.3654846342364308]
トークンレベルの幻覚を無視可能なコストで検出する軽量バイナリ分類器であるMetaTokenを紹介する。統計的解析から,これまでの研究で注目されていたLVLMの幻覚の要因を明らかにした。提案手法の有効性を示す4種類のLVLMについて検討した。
論文参考訳（メタデータ） (2024-05-29T15:28:42Z)
Mitigating Object Hallucination in MLLMs via Data-augmented Phrase-level Alignment [52.43197107069751]
MLLM(Multimodal Large Language Models)はしばしば幻覚と呼ばれる事実的不正確な情報を生成する。そこで,本研究では,MLLMの命令調整による幻覚の緩和に応用可能な新しい損失であるData-augmented Phrase-level Alignment(DPA)を提案する。
論文参考訳（メタデータ） (2024-05-28T23:36:00Z)
ALOHa: A New Measure for Hallucination in Captioning Models [61.007542765171586]
既存の物体幻覚の計量であるCHAIRは、MS COCOオブジェクトとシノニムの固定セットに限られる。そこで我々は,大規模言語モデル(LLM)を利用して物体の幻覚を測定する,最新のオープン語彙メトリックALOHaを提案する。 ALOHaはHAT上のCHAIRよりも13.6%多くの幻覚物質を正しく同定することを示す。
論文参考訳（メタデータ） (2024-04-03T17:59:36Z)
Hallucination Augmented Contrastive Learning for Multimodal Large Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文参考訳（メタデータ） (2023-12-12T04:05:15Z)
Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。 LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文参考訳（メタデータ） (2023-10-01T18:10:53Z)
Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。 LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文参考訳（メタデータ） (2023-05-17T16:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。