論文の概要: Teaching VLMs to Localize Specific Objects from In-context Examples
- arxiv url: http://arxiv.org/abs/2411.13317v1
- Date: Wed, 20 Nov 2024 13:34:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:12:04.474123
- Title: Teaching VLMs to Localize Specific Objects from In-context Examples
- Title(参考訳): テキスト内から特定対象をローカライズするためのVLM教育
- Authors: Sivan Doveh, Nimrod Shabtay, Wei Lin, Eli Schwartz, Hilde Kuehne, Raja Giryes, Rogerio Feris, Leonid Karlinsky, James Glass, Assaf Arbelle, Shimon Ullman, M. Jehanzeb Mirza,
- Abstract要約: VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
- 参考スコア(独自算出の注目度): 56.797110842152
- License:
- Abstract: Vision-Language Models (VLMs) have shown remarkable capabilities across diverse visual tasks, including image recognition, video understanding, and Visual Question Answering (VQA) when explicitly trained for these tasks. Despite these advances, we find that current VLMs lack a fundamental cognitive ability: learning to localize objects in a scene by taking into account the context. In this work, we focus on the task of few-shot personalized localization, where a model is given a small set of annotated images (in-context examples) -- each with a category label and bounding box -- and is tasked with localizing the same object type in a query image. To provoke personalized localization abilities in models, we present a data-centric solution that fine-tunes them using carefully curated data from video object tracking datasets. By leveraging sequences of frames tracking the same object across multiple shots, we simulate instruction-tuning dialogues that promote context awareness. To reinforce this, we introduce a novel regularization technique that replaces object labels with pseudo-names, ensuring the model relies on visual context rather than prior knowledge. Our method significantly enhances few-shot localization performance without sacrificing generalization, as demonstrated on several benchmarks tailored to personalized localization. This work is the first to explore and benchmark personalized few-shot localization for VLMs, laying a foundation for future research in context-driven vision-language applications. The code for our project is available at https://github.com/SivanDoveh/IPLoc
- Abstract(参考訳): VLM(Vision-Language Models)は、画像認識、ビデオ理解、視覚質問応答(Visual Question Answering、VQA)など、様々な視覚タスクに対して、これらのタスクを明示的に訓練した場合に顕著な能力を示す。
これらの進歩にもかかわらず、現在のVLMには基本的な認知能力がないことが分かっています。
本研究では,モデルに注釈付きイメージの小さなセット(コンテキスト内の例)が付与され,それぞれにカテゴリラベルとバウンディングボックスがあり,同じオブジェクトタイプをクエリイメージにローカライズするタスクである,パーソナライズされたローカライゼーションのタスクに焦点を当てる。
モデルにおけるパーソナライズされたローカライズ機能を実現するために,ビデオオブジェクト追跡データセットから慎重に収集したデータを用いて,それらを微調整するデータ中心のソリューションを提案する。
複数のショットにまたがって同じオブジェクトをトラッキングするフレーム列を活用することで、コンテキスト認識を促進する命令チューニング対話をシミュレートする。
これを強化するために、オブジェクトラベルを擬似名前に置き換える新しい正規化手法を導入し、モデルが事前知識よりも視覚的コンテキストに依存していることを保証する。
本手法は、パーソナライズされたローカライゼーションに適したいくつかのベンチマークで示されるように、一般化を犠牲にすることなく、少数ショットのローカライゼーション性能を著しく向上させる。
この研究は、VLMのパーソナライズされたパーソナライズされた数ショットローカライゼーションを探索し、ベンチマークした最初のものである。
プロジェクトのコードはhttps://github.com/SivanDoveh/IPLocで公開されている。
関連論文リスト
- VOVTrack: Exploring the Potentiality in Videos for Open-Vocabulary Object Tracking [61.56592503861093]
オープンボキャブラリオブジェクト検出(OVD)とマルチオブジェクトトラッキング(MOT)の複雑さを両立させる。
OVMOT の既存のアプローチは、OVD と MOT の方法論を別個のモジュールとして統合することが多く、主に画像中心のレンズによる問題に焦点を当てている。
VOVTrackは、MOTとビデオ中心トレーニングに関連するオブジェクト状態を統合する新しい手法であり、ビデオオブジェクト追跡の観点からこの問題に対処する。
論文 参考訳(メタデータ) (2024-10-11T05:01:49Z) - ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。
この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。
ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Localizing Events in Videos with Multimodal Queries [71.40602125623668]
マルチモーダルクエリによるビデオ内のイベントのローカライズのための新しいベンチマークICQを導入する。
4種類の参照イメージと5種類のリファインメントテキストが含まれており、異なるドメインにわたるモデルパフォーマンスを探索することができます。
論文 参考訳(メタデータ) (2024-06-14T14:35:58Z) - OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。
これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。
実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T21:36:31Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Meta-Personalizing Vision-Language Models to Find Named Instances in
Video [30.63415402318075]
大規模視覚言語モデル (VLM) は、言語誘導検索アプリケーションにおいて印象的な結果を示している。
彼らは現在、My Dog Biscuit'のような特定のオブジェクトインスタンスが現れるビデオの中で、パーソナライズされた瞬間の検索に苦労している。
本稿では,VLMのメタパーソナライズ方法,すなわちビデオ検索のテスト時にVLMをパーソナライズする方法を学ぶ。
論文 参考訳(メタデータ) (2023-06-16T20:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。