論文の概要: Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance
- arxiv url: http://arxiv.org/abs/2402.08680v2
- Date: Wed, 11 Jun 2025 21:33:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:21.981588
- Title: Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance
- Title(参考訳): 画像付き誘導による大規模視覚言語モデルにおける物体の幻覚の緩和
- Authors: Linxi Zhao, Yihe Deng, Weitong Zhang, Quanquan Gu,
- Abstract要約: Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
- 参考スコア(独自算出の注目度): 51.30560006045442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of Large Vision-Language Models (LVLMs) has increasingly highlighted the critical issue of their tendency to hallucinate non-existing objects in the images. To address this issue, previous works focused on using specially curated datasets or powerful LLMs to rectify the outputs of LVLMs. However, these approaches require either costly training or fine-tuning, or API access to proprietary LLMs for post-generation correction. In response to these limitations, we propose Mitigating hallucinAtion via image-gRounded guIdaNcE (MARINE), a framework that is both training-free and API-free. MARINE effectively and efficiently reduces object hallucinations during inference by introducing image-grounded guidance to LVLMs. This is achieved by leveraging open-source vision models to extract object-level information, thereby enhancing the precision of LVLM-generated content. Our framework's flexibility further allows for the integration of multiple vision models, enabling more reliable and robust object-level guidance. Through comprehensive evaluations across 5 popular LVLMs with diverse evaluation metrics and benchmarks, we demonstrate the effectiveness of MARINE, which even outperforms existing fine-tuning-based methods. Remarkably, it reduces hallucinations consistently in GPT-4V-assisted evaluation while maintaining the detailedness of LVLMs' generations. We release our code at https://github.com/Linxi-ZHAO/MARINE.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の進歩は、画像中の既存の物体を幻覚させる傾向の重大な問題を強調している。
この問題に対処するため、以前の研究は特別にキュレートされたデータセットや強力なLLMを使用してLVLMの出力を修正することに焦点を当てていた。
しかし、これらのアプローチでは、コストのかかるトレーニングや微調整、あるいは後世代の修正のためにプロプライエタリなLLMへのAPIアクセスが必要である。
これらの制約に対応するために、トレーニングフリーかつAPIフリーのフレームワークである image-gRounded guIdaNcE (MARINE) による幻覚の緩和を提案する。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
これは、オープンソースのビジョンモデルを利用してオブジェクトレベルの情報を抽出し、LVLM生成コンテンツの精度を高めることで実現される。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
様々な評価指標とベンチマークを持つ5つのLVLMの総合評価を通じて、既存の微調整手法よりも優れたMARINEの有効性を実証する。
注目すべきは、LVLMs世代の詳細性を保ちながら、GPT-4Vによる評価における幻覚の持続性を減少させることである。
コードをhttps://github.com/Linxi-ZHAO/MARINEでリリースします。
関連論文リスト
- OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - A Survey of Hallucination in Large Visual Language Models [48.794850395309076]
幻覚の存在は、様々な分野におけるLVLMの可能性と実用性を制限している。
LVLMの構造と幻覚の発生の主な原因を紹介する。
LVLMの幻覚評価ベンチマークについて述べる。
論文 参考訳(メタデータ) (2024-10-20T10:58:58Z) - Iter-AHMCL: Alleviate Hallucination for Large Language Model via Iterative Model-level Contrastive Learning [16.883679810267342]
幻覚に対処するための反復モデルレベルのコントラスト学習(Iter-AHMCL)
本稿では,幻覚に対処するイテレーティブモデルレベルのコントラスト学習(Iter-AHMCL)を提案する。
論文 参考訳(メタデータ) (2024-10-16T00:15:40Z) - Rethinking VLMs and LLMs for Image Classification [6.550471260627169]
大きな言語モデル(LLM)は、新しい機能を実現するために、Visual Language Models(VLM)と統合されつつある。
オブジェクト認識やシーン認識では,LLMを使わないVLMの方が,VLMよりも優れた性能が得られることを示す。
本稿では,視覚的タスクをタスクに適したモデルに効率的にルーティングする,比較的小さなLCMを含む軽量な修正法を提案する。
論文 参考訳(メタデータ) (2024-10-03T23:40:21Z) - CLIP-DPO: Vision-Language Models as a Source of Preference for Fixing Hallucinations in LVLMs [37.98496239547762]
大きな視覚言語モデルは、オブジェクトやそれらの特性や関係といった詳細を幻覚させる傾向があり、実際のデプロイメントを制限します。
本稿では,LVLMのDPOに基づく最適化のために,CLIP(CLIP-DPO)埋め込みモデルを用いた優先最適化手法を提案する。
論文 参考訳(メタデータ) (2024-08-19T21:56:20Z) - Mitigating Hallucinations in Large Vision-Language Models (LVLMs) via Language-Contrastive Decoding (LCD) [13.430637580980164]
Large Vision-Language Models (LVLM) は、画像入力とテキスト入力の両方の処理を容易にし、AI機能を拡張したLarge Language Models (LLM)の拡張である。
本研究では,LVLMの出力をLarge Language Models分布の信頼性レベルに基づいて調整するLanguage Contrastive Decoding (LCD)アルゴリズムを提案する。
本手法は,複雑な後処理や再学習を必要とせず,LVLMを効果的に改善し,異なるモデルに容易に適用できる。
論文 参考訳(メタデータ) (2024-08-06T08:10:34Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - CIEM: Contrastive Instruction Evaluation Method for Better Instruction
Tuning [8.217445461627797]
VLM(Vision-Language Models)は、下流のアプリケーションで、例えば存在しないエンティティをキャプションするときに、誤った知覚情報を生成する。
幻覚現象に対処するため,CIEM(Contrastive Instruction Evaluation Method)とCIT(Contrastive Instruction Tuning)を導入する。
既存のVLMに共通する幻覚問題,幻覚現象に対処する現在の指導訓練データセットの障害,およびCIEMおよび公開データセットよりもCIT調整VLMの方が優れていることを指摘する。
論文 参考訳(メタデータ) (2023-09-05T15:06:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。