論文の概要: Seeing Clearly, Reasoning Confidently: Plug-and-Play Remedies for Vision Language Model Blindness
- arxiv url: http://arxiv.org/abs/2602.19615v1
- Date: Mon, 23 Feb 2026 09:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.739928
- Title: Seeing Clearly, Reasoning Confidently: Plug-and-Play Remedies for Vision Language Model Blindness
- Title(参考訳): ビジュアライズ・モデル・ブラインドネスに対するプラグイン・アンド・プレイの対策
- Authors: Xin Hu, Haomiao Ni, Yunbei Zhang, Jihun Hamm, Zechen Li, Zhengming Ding,
- Abstract要約: 稀なオブジェクトに対する視覚言語モデルの推論を大幅に改善する効率的なプラグアンドプレイモジュールを提案する。
視覚基礎モデルと同義語テキスト記述から事前知識を活用することで,レアオブジェクトに対するマルチモーダルクラス埋め込みを学習する。
2つのベンチマーク実験は、希少な物体認識と推論において、事前訓練されたVLMに対して、一貫性と実質的な利得を示す。
- 参考スコア(独自算出の注目度): 36.09698262750699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision language models (VLMs) have achieved remarkable success in broad visual understanding, yet they remain challenged by object-centric reasoning on rare objects due to the scarcity of such instances in pretraining data. While prior efforts alleviate this issue by retrieving additional data or introducing stronger vision encoders, these methods are still computationally intensive during finetuning VLMs and don't fully exploit the original training data. In this paper, we introduce an efficient plug-and-play module that substantially improves VLMs' reasoning over rare objects by refining visual tokens and enriching input text prompts, without VLMs finetuning. Specifically, we propose to learn multi-modal class embeddings for rare objects by leveraging prior knowledge from vision foundation models and synonym-augmented text descriptions, compensating for limited training examples. These embeddings refine the visual tokens in VLMs through a lightweight attention-based enhancement module that improves fine-grained object details. In addition, we use the learned embeddings as object-aware detectors to generate informative hints, which are injected into the text prompts to help guide the VLM's attention toward relevant image regions. Experiments on two benchmarks show consistent and substantial gains for pretrained VLMs in rare object recognition and reasoning. Further analysis reveals how our method strengthens the VLM's ability to focus on and reason about rare objects.
- Abstract(参考訳): 視覚言語モデル(VLM)は、広義の視覚的理解において顕著な成功を収めてきたが、事前学習データにそのような事例が不足していることから、希少物体に対するオブジェクト中心の推論によって、依然として課題が残されている。
以前の取り組みでは、追加データを取得したり、より強力なビジョンエンコーダを導入することでこの問題を緩和していたが、これらの手法は、微調整されたVLMの間も計算集約的であり、元のトレーニングデータを完全に活用していない。
本稿では,視覚トークンを精細化し,VLMを微調整することなく入力テキストのプロンプトを充実させることにより,希少物体に対するVLMの推論を大幅に改善する効率的なプラグアンドプレイモジュールを提案する。
具体的には、視覚基礎モデルや同義語による記述から事前知識を活用して、限られた訓練例を補うことで、レアオブジェクトに対するマルチモーダルなクラス埋め込みを学習することを提案する。
これらの埋め込みは、細粒度オブジェクトの詳細を改善する軽量アテンションベースの拡張モジュールを通じて、VLMの視覚トークンを洗練します。
さらに、学習した埋め込みをオブジェクト認識検出器として使用して、テキストプロンプトにインジェクトされた情報的ヒントを生成し、VLMの注意を関連画像領域へ導くのに役立つ。
2つのベンチマーク実験は、希少な物体認識と推論において、事前訓練されたVLMに対して、一貫性と実質的な利得を示す。
さらに分析した結果,この手法が希少物体に焦点を絞って推論するVLMの能力をいかに強化するかが明らかになった。
関連論文リスト
- Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - To Sink or Not to Sink: Visual Information Pathways in Large Vision-Language Models [34.902254997726835]
Vision Transformer (ViT)は、視覚コンテンツを画像トークンのシーケンスにエンコードする。
LLM(Large Language Model)は、これらのトークンを解釈して高レベルの推論を行う。
我々は、ViTアテンションシンク(ViT attention sinks)と呼ばれる、ViTから高北の視覚トークンのクラスを同定する。
論文 参考訳(メタデータ) (2025-10-09T17:44:42Z) - Cross-Modal Attention Guided Unlearning in Vision-Language Models [16.460281156521646]
VLM(Vision-Language Models)は、マルチモーダル理解および推論タスクにおいて、膨大な能力を示す。
VLMは、クエリの視覚的コンテキストがテキストに加えてセンシティブな情報も含んでいる可能性があるため、このプロセスに複雑さの層を追加します。
我々は、軽量で効率的なVLMアンラーニングフレームワークであるCross-Modal Attentioned Unlearning(CAGUL)を定式化する。
論文 参考訳(メタデータ) (2025-10-08T21:21:59Z) - Visual Jigsaw Post-Training Improves MLLMs [58.29961336087896]
大規模言語モデル(MLLM)における視覚的理解を強化するために設計された,汎用的な自己教師型ポストトレーニングフレームワークであるVisual Jigsawを紹介する。
視覚的な入力は分割され、シャッフルされ、モデルは自然言語で正しい置換を生成することで視覚情報を再構築する必要がある。
広範囲な実験により、微粒な知覚、時間的推論、空間的理解が大幅に改善された。
論文 参考訳(メタデータ) (2025-09-29T17:59:57Z) - Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。
VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文 参考訳(メタデータ) (2025-06-09T17:59:54Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。