Fugu-MT 論文翻訳(概要): Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination

論文の概要: Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination

arxiv url: http://arxiv.org/abs/2403.14401v2
Date: Sun, 1 Sep 2024 07:45:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-04 19:02:17.330774
Title: Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination
Title（参考訳）: Pensieve: 視覚幻覚を緩和するレトロスペクティブ
Authors: Dingchen Yang, Bowen Cao, Guang Chen, Changjun Jiang,
Abstract要約: 本稿では、類似した視覚幻覚を利用する訓練不要の手法であるPensieveを提案する。 Pensieveは、抽出されたスコアを適応的にスケーリングすることで、視覚とテキストの両方のブランチからエラーに対処する効果を緩和する。
参考スコア（独自算出の注目度）: 14.25488878224697
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal Large Language Models (MLLMs) demonstrate remarkable success across various vision-language tasks. However, they suffer from visual hallucination, where the generated responses diverge from the provided image. Are MLLMs oblivious to the accurate visual cues when they hallucinate? Our investigation reveals that the visual branch may equally advocate both accurate and erroneous content. To address this issue, we propose Pensieve, a training-free method that leverages the analogous visual hallucinations, which are induced by images sharing common semantic and appearance characteristics, to mitigate hallucination. Specifically, Pensieve enables MLLMs to retrospect relevant images as references and compare their visual content with the test image via confidence score subtraction. Moreover, our paradigm balances the effects of addressing errors from both the visual and textual branches by adaptively scaling the subtracted scores. Experiments on Whoops, LLaVA Bench, POPE, and MME demonstrate the efficacy of Pensieve in mitigating visual hallucination, surpassing other advanced decoding strategies. Pensieve also aids MLLMs in identifying visual details and enhance the specificity of generated image descriptions.
Abstract（参考訳）: MLLM(Multi-modal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めている。しかし、それらは視覚幻覚に悩まされ、生成した応答は提供された画像から分岐する。 MLLMは幻覚の正確な視覚的手がかりを無視しているか? 我々の調査は、視覚枝が正確かつ誤った内容の両方を同じように主張する可能性があることを明らかにしている。この問題に対処するために,一般的な意味的特徴と外観的特徴を共有する画像によって誘導される類似の視覚幻覚を利用する学習不要の手法であるPensieveを提案し,幻覚を緩和する。特に、Pensieveでは、MLLMが関連する画像を参照として振り返り、信頼スコアのサブトラクションを通じて、その視覚内容とテスト画像を比較することができる。さらに,本パラダイムは,抽出したスコアを適応的にスケーリングすることで,視覚的およびテキスト的両方の分岐からエラーに対処する効果のバランスをとる。 Whoops, LLaVA Bench, POPE, MMEの実験は、Pensieveが視覚幻覚を緩和し、他の高度な復号戦略を上回る効果を示した。 Pensieveはまた、視覚的詳細を識別するMLLMを支援し、生成された画像記述の特異性を高める。

関連論文リスト

SAVER: Mitigating Hallucinations in Large Vision-Language Models via Style-Aware Visual Early Revision [59.61988843996952]
Style-Aware Visual Early Revision SAVERはトークンレベルの視覚的注意パターンに基づいてLVLMの最終出力を動的に調整する新しいメカニズムである。我々は,SAVERが様々なモデル,データセット,タスクの幻覚緩和において,最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2025-08-05T07:41:25Z)
See Different, Think Better: Visual Variations Mitigating Hallucinations in LVLMs [7.964168958699652]
本稿では,視覚中心の幻覚緩和フレームワークであるViHalluについて述べる。 ViHalluは、全体像構造を維持しながら、制御可能な視覚的変化を伴う視覚的変化画像を導入している。実験により、ViHalluは幻覚の傾向を著しく低減しつつ、モデルのきめ細かい視覚的理解を効果的に強化することが示された。
論文参考訳（メタデータ） (2025-07-29T16:53:27Z)
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。 ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文参考訳（メタデータ） (2025-06-11T19:16:54Z)
Mitigating Hallucinations in Large Vision-Language Models by Adaptively Constraining Information Flow [32.039946174953236]
大きな視覚言語モデルは、人間の言語を通して視覚情報を理解する大きな可能性を示している。それらは、物体の幻覚に苦しむ傾向があり、すなわち、生成された画像記述には、画像の中に存在しない物体が含まれている。本稿では,幻覚雑音の導入による過信を軽減するため,変分情報ボトルネック(VIB)を提案する。
論文参考訳（メタデータ） (2025-02-28T05:56:23Z)
Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-29T23:56:01Z)
Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文参考訳（メタデータ） (2024-12-15T09:10:46Z)
Devils in Middle Layers of Large Vision-Language Models: Interpreting, Detecting and Mitigating Object Hallucinations via Attention Lens [7.806633929976787]
LVLM(Large Vision-Language Models)の幻覚は、その信頼性を著しく損なう。本稿では,LVLMが視覚情報をどのように処理し,その処理が幻覚を引き起こすかについて述べる。本稿では,様々な頭部に情報を統合することで視覚的注意を調節する簡易な推論時間手法を提案する。
論文参考訳（メタデータ） (2024-11-23T03:40:05Z)
CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs [74.36850397755572]
CATCHは、未解決のシナリオにおいて、きめ細かい特徴知覚と累積幻覚を減少させる視覚的欠陥に関連する問題に対処する。これは、特定のデータや事前知識を必要とせず、様々な視覚的質問応答タスクに適用でき、追加のトレーニングを必要とせず、新しいタスクにしっかりと一般化する。
論文参考訳（メタデータ） (2024-11-19T18:27:31Z)
HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文参考訳（メタデータ） (2024-09-30T15:52:05Z)
Interpreting and Mitigating Hallucination in MLLMs through Multi-agent Debate [34.17353224636788]
MLLMにおける幻覚は、部分的には、これらのモデルにおいてゆっくり考え、異なる考えが欠如しているためである、と我々は主張する。我々のアプローチは幻覚だけでなく、それらがなぜ起こるのかを解釈し、幻覚の特異点を詳述する。
論文参考訳（メタデータ） (2024-07-30T02:41:32Z)
Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文参考訳（メタデータ） (2024-05-24T16:21:59Z)
Hallucination Augmented Contrastive Learning for Multimodal Large Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文参考訳（メタデータ） (2023-12-12T04:05:15Z)
Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文参考訳（メタデータ） (2023-11-28T16:26:35Z)
Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。 LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文参考訳（メタデータ） (2023-05-17T16:34:01Z)
Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文参考訳（メタデータ） (2022-10-14T10:27:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。