論文の概要: Locality Alignment Improves Vision-Language Models
- arxiv url: http://arxiv.org/abs/2410.11087v2
- Date: Tue, 04 Mar 2025 03:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:10:13.986259
- Title: Locality Alignment Improves Vision-Language Models
- Title(参考訳): 局所性アライメントはビジョンランゲージモデルを改善する
- Authors: Ian Covert, Tony Sun, James Zou, Tatsunori Hashimoto,
- Abstract要約: 近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
- 参考スコア(独自算出の注目度): 55.275235524659905
- License:
- Abstract: Vision language models (VLMs) have seen growing adoption in recent years, but many still struggle with basic spatial reasoning errors. We hypothesize that this is due to VLMs adopting pre-trained vision backbones, specifically vision transformers (ViTs) trained with image-level supervision and minimal inductive biases. Such models may fail to encode the class contents at each position in the image, and our goal is to resolve this with a vision backbone that effectively captures both local and global image semantics. Our main insight is that we do not require new supervision to learn this capability - pre-trained models contain significant knowledge of local semantics that we can extract and use for scalable self-supervision. We propose a new efficient post-training stage for ViTs called locality alignment and a novel fine-tuning procedure called MaskEmbed that uses a masked reconstruction loss to learn semantic contributions for each image patch. We first evaluate locality alignment with a vision-only benchmark, finding that it improves a model's performance at patch-level semantic segmentation, especially for strong backbones trained with image-caption pairs (e.g., CLIP and SigLIP). We then train a series of VLMs with and without locality alignment, and show that locality-aligned backbones improve performance across a range of benchmarks, particularly ones that involve spatial understanding (e.g., RefCOCO, OCID-Ref, TallyQA, VSR, AI2D). Overall, we demonstrate that we can efficiently learn local semantic extraction via a locality alignment stage, and that this procedure benefits VLM training recipes that use off-the-shelf vision backbones.
- Abstract(参考訳): 近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
これは、トレーニング済みの視覚バックボーン、特に画像レベルの監督と最小誘導バイアスで訓練された視覚トランスフォーマー(ViT)を採用するVLMによるものであると仮定する。
このようなモデルは画像の各位置のクラス内容の符号化に失敗する可能性があり、我々のゴールは、ローカルおよびグローバルなイメージセマンティクスの両方を効果的にキャプチャするビジョンバックボーンでこれを解決することである。
トレーニング済みのモデルには、スケーラブルなセルフスーパービジョンのために抽出および使用可能な、ローカルセマンティクスに関する重要な知識が含まれています。
本稿では,局所性アライメント(Localityアライメント)と呼ばれるViTのための新しい学習段階と,マスク付き再構成損失を用いて各画像パッチのセマンティックコントリビューションを学習するMaskEmbed(MaskEmbed)と呼ばれるファインタニング手法を提案する。
まず、画像キャプチャペア(例えば、CLIPとSigLIP)でトレーニングされた強力なバックボーンに対して、パッチレベルのセマンティックセグメンテーションにおけるモデルの性能を改善することを発見した。
次に、局所性アライメントと非局所性アライメントを併用した一連のVLMのトレーニングを行い、特に空間的理解(RefCOCO、OCID-Ref、TallyQA、VSR、AI2Dなど)を含む様々なベンチマークにおける局所性アライメントのバックボーンのパフォーマンス向上を示す。
全体として,局所性アライメント段階を通して局所的意味抽出を効率的に学習できることを示し,本手法は市販の視覚バックボーンを用いたVLMトレーニングレシピに有効であることを示した。
関連論文リスト
- FLAVARS: A Multimodal Foundational Language and Vision Alignment Model for Remote Sensing [5.170800801074805]
コントラスト学習とマスクモデリングを組み合わせた事前学習手法であるFLAVARSを提案する。
FLAVARSは、KNN分類のような視覚のみのタスクにおいて、SkyCLIPのベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-01-14T23:31:20Z) - DenseVLM: A Retrieval and Decoupled Alignment Framework for Open-Vocabulary Dense Prediction [80.67150791183126]
DenseVLMは、非バイアスの領域言語アライメントを、強力な事前学習型VLM表現から学習するためのフレームワークである。
我々は、DenseVLMをオープン語彙オブジェクト検出と画像分割タスクにシームレスに統合できることを示し、顕著な性能改善を実現した。
論文 参考訳(メタデータ) (2024-12-09T06:34:23Z) - Context-Based Visual-Language Place Recognition [4.737519767218666]
視覚に基づく位置認識に対する一般的なアプローチは、低レベルの視覚的特徴に依存している。
シーン変更に対して堅牢で,追加のトレーニングを必要としない,新しいVPRアプローチを導入する。
ゼロショット・言語駆動セマンティックセグメンテーションモデルを用いて画素レベルの埋め込みを抽出し,セマンティックイメージ記述子を構築する。
論文 参考訳(メタデータ) (2024-10-25T06:59:11Z) - Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Contrastive Vision-Language Alignment Makes Efficient Instruction
Learner [31.281236193979165]
本研究では,大規模言語モデル(LLM)を視覚言語命令追従モデルに拡張する作業について検討する。
既存の方法では、視覚アダプタを訓練して、前訓練された視覚変換器(ViT)とLLMの間の表現を、生成的な画像キャプション損失によって整列させるのが一般的である。
比較的および生成的アライメントの目的を適用し, ViT と LLM の表現を効果的に整合させる CG-VLM を提案する。
論文 参考訳(メタデータ) (2023-11-29T03:29:46Z) - IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文 参考訳(メタデータ) (2023-03-25T08:19:31Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。