論文の概要: Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding
- arxiv url: http://arxiv.org/abs/2503.06287v1
- Date: Sat, 08 Mar 2025 17:24:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:54.692802
- Title: Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding
- Title(参考訳): 大きめの視界ランゲージモデルには、視覚的な接地のためのわずかな注意力しか必要としない
- Authors: Seil Kang, Jinyeong Kim, Junhyeok Kim, Seong Jae Hwang,
- Abstract要約: ビジュアルグラウンドティングは、自由形式のテキスト記述に対応する画像領域をローカライズしようとする。
本研究では,テキスト・ツー・イメージ・アテンション・マップを用いて対象物体を識別する学習自由なビジュアルグラウンドティング・フレームワークを提案する。
以上の結果から,LVLMはテキスト-画像関係の深い理解に基づいて,自然に物体を接地することができることが示唆された。
- 参考スコア(独自算出の注目度): 4.024850952459758
- License:
- Abstract: Visual grounding seeks to localize the image region corresponding to a free-form text description. Recently, the strong multimodal capabilities of Large Vision-Language Models (LVLMs) have driven substantial improvements in visual grounding, though they inevitably require fine-tuning and additional model components to explicitly generate bounding boxes or segmentation masks. However, we discover that a few attention heads in frozen LVLMs demonstrate strong visual grounding capabilities. We refer to these heads, which consistently capture object locations related to text semantics, as localization heads. Using localization heads, we introduce a straightforward and effective training-free visual grounding framework that utilizes text-to-image attention maps from localization heads to identify the target objects. Surprisingly, only three out of thousands of attention heads are sufficient to achieve competitive localization performance compared to existing LVLM-based visual grounding methods that require fine-tuning. Our findings suggest that LVLMs can innately ground objects based on a deep comprehension of the text-image relationship, as they implicitly focus on relevant image regions to generate informative text outputs. All the source codes will be made available to the public.
- Abstract(参考訳): ビジュアルグラウンドティングは、自由形式のテキスト記述に対応する画像領域をローカライズしようとする。
近年、LVLM(Large Vision-Language Models)の強力なマルチモーダル機能により、視覚的なグラウンド化が大幅に改善されているが、境界ボックスやセグメンテーションマスクを明示的に生成するためには、必然的に細調整と追加のモデルコンポーネントが必要である。
しかし, 凍結したLVLMの頭部には, 強力な視覚的接地能力があることが判明した。
テキストセマンティクスに関連するオブジェクトの位置を常にキャプチャするこれらのヘッドを、ローカライゼーションヘッドと呼ぶ。
ローカライゼーションヘッドを用いて,テキスト・ツー・イメージ・アテンション・マップを用いて対象物体を識別する,簡単かつ効果的なトレーニング不要なビジュアルグラウンドティング・フレームワークを提案する。
驚くべきことに、微調整を必要とする既存のLVLMベースの視覚的接地法と比較して、競争力のあるローカライゼーション性能を達成するのに十分であるのは、数千人中3人しかいない。
以上の結果から,LVLMは画像領域に暗黙的に焦点を絞って情報的テキスト出力を生成するため,テキストイメージ関係の深い理解に基づいて,自然にオブジェクトを接地することが可能であることが示唆された。
すべてのソースコードが一般公開される予定だ。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。
モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。
我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - What does CLIP know about a red circle? Visual prompt engineering for
VLMs [116.8806079598019]
テキストの代わりに画像空間を編集することで、分類を超えたコンピュータビジョンタスクを解くための視覚的プロンプトエンジニアリングのアイデアを探求する。
キーポイントのローカライゼーションタスクにおけるゼロショット参照表現の理解と強力な性能を両立させることにより,このシンプルなアプローチのパワーを示す。
論文 参考訳(メタデータ) (2023-04-13T17:58:08Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Improving Visual Grounding with Visual-Linguistic Verification and
Iterative Reasoning [42.29650807349636]
正確な視覚的接地のためのトランスフォーマーベースのフレームワークを提案する。
テキスト記述に関連する領域に視覚的特徴を集中させる視覚言語検証モジュールを開発した。
言語誘導型特徴エンコーダは、対象オブジェクトの視覚的コンテキストを集約して、オブジェクトの特異性を改善するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T13:48:15Z) - AttnGrounder: Talking to Cars with Attention [6.09170287691728]
視覚的接地作業のための一段階から一段階の訓練可能なモデルを提案する。
Visual Groundingは、与えられた自然言語のテキストクエリに基づいて、特定のオブジェクトをイメージにローカライズすることを目的としている。
我々はTalk2Carデータセット上でAttnGrounderを評価し,既存の手法よりも3.26%改善したことを示す。
論文 参考訳(メタデータ) (2020-09-11T23:18:55Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。