論文の概要: Black-Box Visual Prompt Engineering for Mitigating Object Hallucination in Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2504.21559v1
- Date: Wed, 30 Apr 2025 11:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 19:06:16.828191
- Title: Black-Box Visual Prompt Engineering for Mitigating Object Hallucination in Large Vision Language Models
- Title(参考訳): 大規模視覚言語モデルにおける物体幻覚の緩和のためのブラックボックス視覚プロンプトエンジニアリング
- Authors: Sangmin Woo, Kang Zhou, Yun Zhou, Shuai Wang, Sheng Guan, Haibo Ding, Lin Lee Cheong,
- Abstract要約: 大きな視覚言語モデル(LVLM)は、しばしばオブジェクト幻覚に悩まされ、その信頼性を損なう。
我々は,モデル内部へのアクセスを必要とせずにLVLM応答を向上させる最適なVPを特定するために,BBVPE(Black-Box Visual Prompt Engineering)を提案する。
提案手法では,候補となるVPのプールを用いて,与えられた入力画像に対して最も有効なVPを動的に選択するルータモデルを訓練する。
- 参考スコア(独自算出の注目度): 16.743274500376657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision Language Models (LVLMs) often suffer from object hallucination, which undermines their reliability. Surprisingly, we find that simple object-based visual prompting -- overlaying visual cues (e.g., bounding box, circle) on images -- can significantly mitigate such hallucination; however, different visual prompts (VPs) vary in effectiveness. To address this, we propose Black-Box Visual Prompt Engineering (BBVPE), a framework to identify optimal VPs that enhance LVLM responses without needing access to model internals. Our approach employs a pool of candidate VPs and trains a router model to dynamically select the most effective VP for a given input image. This black-box approach is model-agnostic, making it applicable to both open-source and proprietary LVLMs. Evaluations on benchmarks such as POPE and CHAIR demonstrate that BBVPE effectively reduces object hallucination.
- Abstract(参考訳): 大きな視覚言語モデル(LVLM)は、しばしばオブジェクト幻覚に悩まされ、その信頼性を損なう。
驚くべきことに、画像上に視覚的手がかり(例えば、境界ボックス、円)をオーバーレイする単純なオブジェクトベースの視覚的プロンプトは、幻覚を著しく緩和するが、異なる視覚的プロンプト(VP)の有効性は異なる。
そこで我々は,モデル内部へのアクセスを必要とせずに,LVLM応答を向上させる最適なVPを識別するフレームワークであるBlack-Box Visual Prompt Engineering (BBVPE)を提案する。
提案手法では,候補となるVPのプールを用いて,与えられた入力画像に対して最も有効なVPを動的に選択するルータモデルを訓練する。
このブラックボックスアプローチはモデルに依存しないため、オープンソースとプロプライエタリなLVLMの両方に適用できる。
POPEやCHAIRなどのベンチマークによる評価は、BBVPEがオブジェクト幻覚を効果的に減少させることを示している。
関連論文リスト
- Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization [21.248617886995103]
トレーニング時の視覚的コンテキスト学習を改善するために,視覚誘導直接選択最適化(V-DPO)を提案する。
分析の結果,V-DPOは画像コントラストの嗜好データからの学習に優れており,視覚的文脈のニュアンスを抽出し理解する能力に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-05T01:24:37Z) - From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - Break the Visual Perception: Adversarial Attacks Targeting Encoded Visual Tokens of Large Vision-Language Models [15.029014337718849]
大きな視覚言語モデル(LVLM)は、視覚情報を大きな言語モデルに統合し、目覚ましい多モーダルな会話能力を示す。
一般に、LVLMは視覚エンコーダに頼って画像を視覚トークンに変換するが、これは言語モデルが画像の内容を効果的に知覚するのに不可欠である。
本稿では,VT-Attackと呼ばれる非標的攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T09:06:56Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information [5.501684533538496]
視覚言語モデル(VLM)を用いた意味幻覚検出システムを提案する。
我々は、プロンプト、RGB画像、ポーズ情報を超えて視覚データをさらに入力することで、VLMの全体的な性能を改善する、ポーズ認識型インコンテキスト・ビジュアル・ラーニング(PA-ICVL)を導入する。
本研究は、コンテキスト内視覚学習による視覚幻覚を緩和し、非フォトリアリスティック領域における潜在能力を拡大することにより、TTIモデルの現実世界への応用に向けての能力を向上させる。
論文 参考訳(メタデータ) (2024-03-22T09:13:09Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。