論文の概要: Visual Prompt Discovery via Semantic Exploration
- arxiv url: http://arxiv.org/abs/2603.16250v1
- Date: Tue, 17 Mar 2026 08:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.175284
- Title: Visual Prompt Discovery via Semantic Exploration
- Title(参考訳): セマンティック探索による視覚プロンプト発見
- Authors: Jaechang Kim, Yotaro Shimose, Zhao Wang, Kuang-Da Wang, Jungseul Ok, Shingo Takamatsu,
- Abstract要約: タスクワイドな視覚的プロンプトを発見するための自動意味探索フレームワークを提案する。
視覚的プロンプト探索における2つの大きな課題に対処するSEVEXを導入し,(1)長大で低レベルなコードによる注意散らし,(2)視覚的プロンプトの広大で非構造的な検索空間について述べる。
SEVEXは、タスク精度、推論効率、探索効率、探索安定性において、ベースライン手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 25.327753820726485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LVLMs encounter significant challenges in image understanding and visual reasoning, leading to critical perception failures. Visual prompts, which incorporate image manipulation code, have shown promising potential in mitigating these issues. While emerged as a promising direction, previous methods for visual prompt generation have focused on tool selection rather than diagnosing and mitigating the root causes of LVLM perception failures. Because of the opacity and unpredictability of LVLMs, optimal visual prompts must be discovered through empirical experiments, which have relied on manual human trial-and-error. We propose an automated semantic exploration framework for discovering task-wise visual prompts. Our approach enables diverse yet efficient exploration through agent-driven experiments, minimizing human intervention and avoiding the inefficiency of per-sample generation. We introduce a semantic exploration algorithm named SEVEX, which addresses two major challenges of visual prompt exploration: (1) the distraction caused by lengthy, low-level code and (2) the vast, unstructured search space of visual prompts. Specifically, our method leverages an abstract idea space as a search space, a novelty-guided selection algorithm, and a semantic feedback-driven ideation process to efficiently explore diverse visual prompts based on empirical results. We evaluate SEVEX on the BlindTest and BLINK benchmarks, which are designed to assess LVLM perception. Experimental results demonstrate that SEVEX significantly outperforms baseline methods in task accuracy, inference efficiency, exploration efficiency, and exploration stability. Notably, our framework discovers sophisticated and counter-intuitive visual strategies that go beyond conventional tool usage, offering a new paradigm for enhancing LVLM perception through automated, task-wise visual prompts.
- Abstract(参考訳): LVLMは画像理解と視覚的推論において重大な課題に遭遇し、重大な知覚障害を引き起こす。
イメージ操作コードを含むビジュアルプロンプトは、これらの問題を緩和する有望な可能性を示している。
将来性のある方向として現れる一方で、従来の視覚的プロンプト生成手法は、LVLM知覚障害の根本原因を診断・緩和するよりも、ツールの選択に重点を置いてきた。
LVLMの不透明さと予測不可能さのため、人間の手動による試行錯誤に依存した経験的な実験によって最適な視覚的プロンプトを見つける必要がある。
タスクワイドな視覚的プロンプトを発見するための自動意味探索フレームワークを提案する。
提案手法により,エージェント駆動実験による多種多様な効率的な探索が可能となり,人間の介入を最小限に抑え,サンプル単位の発生効率の低下を回避することができる。
視覚的プロンプト探索における2つの大きな課題に対処するセマンティック探索アルゴリズムSEVEXを導入する。
具体的には、探索空間としての抽象的なアイデア空間、新規誘導選択アルゴリズム、意味フィードバック駆動の思考プロセスを利用して、経験的結果に基づく多様な視覚的プロンプトを効率的に探索する。
我々は,LVLMの知覚を評価するために,BlindTestとBLINKのベンチマークでSEVEXを評価した。
実験の結果,SEVEXはタスク精度,推論効率,探索効率,探索安定性において,ベースライン法を著しく上回っていることがわかった。
特に,我々のフレームワークは,従来のツールの利用を超越した,高度で直感的な視覚戦略を発見し,自動化されたタスクワイドな視覚的プロンプトを通じてLVLM知覚を高めるための新たなパラダイムを提供する。
関連論文リスト
- VILOD: A Visual Interactive Labeling Tool for Object Detection [0.0]
この論文は「VILOD:オブジェクト検出のためのビジュアルインタラクティブラベリングツール」を開発・研究している。
これによりユーザは、データ探索、モデル状態の解釈、AL提案、オブジェクト検出のための反復型HITLワークフロー内のさまざまなサンプル選択戦略の実装が可能になる。
この研究は、VILODで使用される異なる視覚誘導型ラベリング戦略が、競合するOD性能トラジェクトリをもたらすことを示した。
論文 参考訳(メタデータ) (2025-08-29T19:27:10Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - Visual hallucination detection in large vision-language models via evidential conflict [24.465497252040294]
Dempster-Shafer理論(DST)に基づく不確実性推定によるLVLMの視覚幻覚検出法
そこで本研究では,LVLMの視覚幻覚検出手法として,DST(Dempster-Shafer theory)を用いた第1次視覚幻覚検出法を提案する。
論文 参考訳(メタデータ) (2025-06-24T11:03:10Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Fast or Slow? Integrating Fast Intuition and Deliberate Thinking for Enhancing Visual Question Answering [11.271123465926301]
マルチモーダルな大言語モデル(MLLM)は、ビジュアル質問回答において複雑な推論タスクに苦戦している。
質問の複雑さに動的に適応するプラグイン・アンド・プレイアプローチである FOCUS を提案する。
ScienceQA、TextQA、VizWiz、MMEの4つのベンチマークの実験では、FOCUSはオープンソースとブラックボックス両方のMLLMの性能を一貫して改善している。
論文 参考訳(メタデータ) (2025-06-01T03:15:29Z) - DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。
現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。
本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文 参考訳(メタデータ) (2025-03-17T04:06:34Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Visual Hindsight Self-Imitation Learning for Interactive Navigation [18.02337761240743]
本稿では,視覚的ハイビジョン・セルフ・イミテーション・ラーニング(VHS)を提案する。
VHSはインタラクティブなビジュアルナビゲーションタスクにおいて、既存の技術よりも優れています。
論文 参考訳(メタデータ) (2023-12-05T05:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。