論文の概要: Contrastive Region Guidance: Improving Grounding in Vision-Language
Models without Training
- arxiv url: http://arxiv.org/abs/2403.02325v1
- Date: Mon, 4 Mar 2024 18:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:39:17.303038
- Title: Contrastive Region Guidance: Improving Grounding in Vision-Language
Models without Training
- Title(参考訳): 対照的な地域指導:訓練無しの視覚言語モデルにおける接地改善
- Authors: David Wan, Jaemin Cho, Elias Stengel-Eskin, Mohit Bansal
- Abstract要約: Contrastive Region Guidance (CRG) は、オープンソースの視覚言語モデルで視覚的プロンプトに応答できる訓練不要のガイダンス手法である。
領域アノテーションが提供されると、CRGはViP-Benchで最大11.1%精度が向上する。
また,空間推論へのCRGの適用性を示すとともに,What'sUpでは10%の改善が見られた。
- 参考スコア(独自算出の注目度): 79.27663870280038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Highlighting particularly relevant regions of an image can improve the
performance of vision-language models (VLMs) on various vision-language (VL)
tasks by guiding the model to attend more closely to these regions of interest.
For example, VLMs can be given a "visual prompt", where visual markers such as
bounding boxes delineate key image regions. However, current VLMs that can
incorporate visual guidance are either proprietary and expensive or require
costly training on curated data that includes visual prompts. We introduce
Contrastive Region Guidance (CRG), a training-free guidance method that enables
open-source VLMs to respond to visual prompts. CRG contrasts model outputs
produced with and without visual prompts, factoring out biases revealed by the
model when answering without the information required to produce a correct
answer (i.e., the model's prior). CRG achieves substantial improvements in a
wide variety of VL tasks: When region annotations are provided, CRG increases
absolute accuracy by up to 11.1% on ViP-Bench, a collection of six diverse
region-based tasks such as recognition, math, and object relationship
reasoning. We also show CRG's applicability to spatial reasoning, with 10%
improvement on What'sUp, as well as to compositional generalization --
improving accuracy by 11.5% and 7.5% on two challenging splits from SugarCrepe
-- and to image-text alignment for generated images, where we improve by up to
8.4 AUROC and 6.8 F1 points on SeeTRUE. When reference regions are absent, CRG
allows us to re-rank proposed regions in referring expression comprehension and
phrase grounding benchmarks like RefCOCO/+/g and Flickr30K Entities, with an
average gain of 3.2% in accuracy. Our analysis explores alternative masking
strategies for CRG, quantifies CRG's probability shift, and evaluates the role
of region guidance strength, empirically validating CRG's design choices.
- Abstract(参考訳): 画像の特に関連性の高い領域をハイライトすることで、様々な視覚言語(VL)タスクにおける視覚言語モデル(VLM)の性能を向上させることができる。
例えば、VLMには"視覚的プロンプト"が与えられ、バウンディングボックスなどの視覚的マーカーがキーイメージ領域を指示する。
しかしながら、ビジュアルガイダンスを組み込むことのできる現在のVLMは、プロプライエタリでコストがかかるか、あるいはビジュアルプロンプトを含むキュレートされたデータに対するコストのかかるトレーニングが必要である。
本稿では,オープンソースのVLMを視覚的プロンプトに応答させる訓練不要なガイダンス手法であるContrastive Region Guidance(CRG)を紹介する。
CRGは、視覚的プロンプトと非視覚的プロンプトで生成されたモデル出力を対比し、正しい答えを生成するために必要な情報(すなわち、モデルの事前情報)がなくても、モデルによって明らかにされるバイアスを分解する。
リージョンアノテーションが提供されている場合、crgは認識、数学、オブジェクト関係推論のような6つの異なる領域ベースのタスクのコレクションであるvip-bench上で、絶対精度を最大11.1%向上させる。
また,空間推論へのCRGの適用性を示すとともに,What'sUpの10%の改善,合成一般化(SugarCrepeからの2つの難解な分割に対して,精度を11.5%,7.5%向上),生成した画像に対する画像テキストアライメント,SeeTRUEの最大8.4AUROCと6.8F1ポイントの改善も示す。
参照領域が存在しない場合、CRGは、RefCOCO/+/gやFlickr30K Entitiesのような表現理解とフレーズグラウンドベンチマークを参照する領域を、平均3.2%の精度で再ランクすることができる。
本分析では,CRGの代替マスク戦略を探求し,CRGの確率シフトを定量化し,CRGの設計選択を実証的に検証し,地域指導力の役割を評価する。
関連論文リスト
- Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
局所性アライメント(Locality alignment)と呼ばれる,視覚障害者のための新しい学習段階を提案する。
局所性に整合したバックボーンは、様々なベンチマークでパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。
我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。
本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-03-04T18:58:08Z) - Question-Answer Cross Language Image Matching for Weakly Supervised
Semantic Segmentation [37.15828464616587]
クラスアクティベーションマップ(CAM)は、弱教師付きセマンティックセグメンテーションの一般的なツールとして登場した。
我々はWSSS(QA-CLIMS)のための質問応答クロスランゲージ画像マッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:55:13Z) - Improved Zero-Shot Classification by Adapting VLMs with Text Descriptions [24.596929878045568]
我々は,視覚言語モデル(VLM)を「バグレベル」の画像テキスト管理で訓練する手法を開発した。
我々は,大規模言語モデル(LLM)によって生成されたカテゴリと,豊富な,きめ細かい画像分類データセットを用いて記述する。
以上の結果から,地理的先行は視覚的外観と同等に有効である可能性が示唆された。
論文 参考訳(メタデータ) (2024-01-04T08:39:13Z) - Fine-Grained Visual Prompting [35.032567257651515]
Fine-Grained Visual Prompting (FGVP) は参照表現のゼロショット理解において優れた性能を示す。
RefCOCO+ testAサブセットで最大12.5%改善され、平均マージンが3.0%から4.6%向上した。
論文 参考訳(メタデータ) (2023-06-07T11:39:56Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - GINet: Graph Interaction Network for Scene Parsing [58.394591509215005]
画像領域に対する文脈推論を促進するために,グラフインタラクションユニット(GIユニット)とセマンティックコンテキストロス(SC-loss)を提案する。
提案されたGINetは、Pascal-ContextやCOCO Stuffなど、一般的なベンチマークにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2020-09-14T02:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。