論文の概要: Teaching VLMs to Localize Specific Objects from In-context Examples
- arxiv url: http://arxiv.org/abs/2411.13317v2
- Date: Wed, 12 Mar 2025 19:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:49:49.860124
- Title: Teaching VLMs to Localize Specific Objects from In-context Examples
- Title(参考訳): テキスト内から特定対象をローカライズするためのVLM教育
- Authors: Sivan Doveh, Nimrod Shabtay, Wei Lin, Eli Schwartz, Hilde Kuehne, Raja Giryes, Rogerio Feris, Leonid Karlinsky, James Glass, Assaf Arbelle, Shimon Ullman, M. Jehanzeb Mirza,
- Abstract要約: 現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
- 参考スコア(独自算出の注目度): 56.797110842152
- License:
- Abstract: Vision-Language Models (VLMs) have shown remarkable capabilities across diverse visual tasks, including image recognition, video understanding, and Visual Question Answering (VQA) when explicitly trained for these tasks. Despite these advances, we find that present-day VLMs (including the proprietary GPT-4o) lack a fundamental cognitive ability: learning to localize specific objects in a scene by taking into account the context. In this work, we focus on the task of few-shot personalized localization, where a model is given a small set of annotated images (in-context examples) -- each with a category label and bounding box -- and is tasked with localizing the same object type in a query image. Personalized localization can be particularly important in cases of ambiguity of several related objects that can respond to a text or an object that is hard to describe with words. To provoke personalized localization abilities in models, we present a data-centric solution that fine-tunes them using carefully curated data from video object tracking datasets. By leveraging sequences of frames tracking the same object across multiple shots, we simulate instruction-tuning dialogues that promote context awareness. To reinforce this, we introduce a novel regularization technique that replaces object labels with pseudo-names, ensuring the model relies on visual context rather than prior knowledge. Our method significantly enhances the few-shot localization performance of recent VLMs ranging from 7B to 72B in size, without sacrificing generalization, as demonstrated on several benchmarks tailored towards evaluating personalized localization abilities. This work is the first to explore and benchmark personalized few-shot localization for VLMs -- exposing critical weaknesses in present-day VLMs, and laying a foundation for future research in context-driven vision-language applications.
- Abstract(参考訳): VLM(Vision-Language Models)は、画像認識、ビデオ理解、視覚質問応答(Visual Question Answering、VQA)など、様々な視覚タスクに対して、これらのタスクを明示的に訓練した場合に顕著な能力を示す。
これらの進歩にもかかわらず、現在のVLM(プロプライエタリなGPT-4oを含む)には基本的な認知能力がないことが判明した。
本研究では,モデルに注釈付きイメージの小さなセット(コンテキスト内の例)が付与され,それぞれにカテゴリラベルとバウンディングボックスがあり,同じオブジェクトタイプをクエリイメージにローカライズするタスクである,パーソナライズされたローカライゼーションのタスクに焦点を当てる。
パーソナライズされたローカライゼーションは、テキストや言葉で説明が難しいオブジェクトに応答できるいくつかの関連オブジェクトのあいまいさの場合に特に重要である。
モデルにおけるパーソナライズされたローカライズ機能を実現するために,ビデオオブジェクト追跡データセットから慎重に収集したデータを用いて,それらを微調整するデータ中心のソリューションを提案する。
複数のショットにまたがって同じオブジェクトをトラッキングするフレーム列を活用することで、コンテキスト認識を促進する命令チューニング対話をシミュレートする。
これを強化するために、オブジェクトラベルを擬似名前に置き換える新しい正規化手法を導入し、モデルが事前知識よりも視覚的コンテキストに依存していることを保証する。
本手法は, パーソナライズされたローカライゼーション能力の評価を目的としたいくつかのベンチマークにおいて, 一般化を犠牲にすることなく, 7B から 72B までの最近の VLM のローカライゼーション性能を著しく向上させる。
この研究は、VLMのパーソナライズされたパーソナライズされた数ショットのローカライゼーションを初めて調査し、ベンチマークした。
関連論文リスト
- Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。
マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。
RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文 参考訳(メタデータ) (2024-12-30T13:16:08Z) - RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations [55.74675012171316]
RELOCATEは、長いビデオにおけるビジュアルクエリローカライゼーションの難しいタスクを実行するために設計された、トレーニング不要のベースラインである。
タスク固有のトレーニングを不要にするために、RELOCATEは事前訓練された視覚モデルから派生した領域ベースの表現を利用する。
論文 参考訳(メタデータ) (2024-12-02T18:59:53Z) - VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Meta-Personalizing Vision-Language Models to Find Named Instances in
Video [30.63415402318075]
大規模視覚言語モデル (VLM) は、言語誘導検索アプリケーションにおいて印象的な結果を示している。
彼らは現在、My Dog Biscuit'のような特定のオブジェクトインスタンスが現れるビデオの中で、パーソナライズされた瞬間の検索に苦労している。
本稿では,VLMのメタパーソナライズ方法,すなわちビデオ検索のテスト時にVLMをパーソナライズする方法を学ぶ。
論文 参考訳(メタデータ) (2023-06-16T20:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。