論文の概要: RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations
- arxiv url: http://arxiv.org/abs/2412.01826v1
- Date: Mon, 02 Dec 2024 18:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:47.437315
- Title: RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations
- Title(参考訳): RELOCATE: 領域ベース表現を用いたビジュアルクエリローカライゼーションのためのシンプルなトレーニングフリーベースライン
- Authors: Savya Khosla, Sethuraman T V, Alexander Schwing, Derek Hoiem,
- Abstract要約: RELOCATEは、長いビデオにおけるビジュアルクエリローカライゼーションの難しいタスクを実行するために設計された、トレーニング不要のベースラインである。
タスク固有のトレーニングを不要にするために、RELOCATEは事前訓練された視覚モデルから派生した領域ベースの表現を利用する。
- 参考スコア(独自算出の注目度): 55.74675012171316
- License:
- Abstract: We present RELOCATE, a simple training-free baseline designed to perform the challenging task of visual query localization in long videos. To eliminate the need for task-specific training and efficiently handle long videos, RELOCATE leverages a region-based representation derived from pretrained vision models. At a high level, it follows the classic object localization approach: (1) identify all objects in each video frame, (2) compare the objects with the given query and select the most similar ones, and (3) perform bidirectional tracking to get a spatio-temporal response. However, we propose some key enhancements to handle small objects, cluttered scenes, partial visibility, and varying appearances. Notably, we refine the selected objects for accurate localization and generate additional visual queries to capture visual variations. We evaluate RELOCATE on the challenging Ego4D Visual Query 2D Localization dataset, establishing a new baseline that outperforms prior task-specific methods by 49% (relative improvement) in spatio-temporal average precision.
- Abstract(参考訳): 本稿では、長時間ビデオにおける視覚的クエリローカライゼーションの課題を実行するために設計された、簡単なトレーニング不要のベースラインであるRELOCATEを提案する。
タスク固有のトレーニングを不要にし、長い動画を効率的に処理するために、RELOCATEは事前訓練された視覚モデルから派生した領域ベースの表現を利用する。
1) ビデオフレーム内のすべてのオブジェクトを識別し、(2) 対象を所定のクエリと比較し、最もよく似たものを選択し、(3) 時空間応答を得るために双方向追跡を行う。
しかし,小さなオブジェクト,散らばったシーン,部分的な可視性,さまざまな外観を扱うための重要な機能拡張を提案する。
特に、選択したオブジェクトを精密なローカライズのために洗練し、視覚的変動を捉えるために追加のビジュアルクエリを生成する。
我々は,課題であるEgo4Dビジュアルクエリ2Dローカライゼーションデータセット上でRELOCATEを評価し,時空間平均精度で従来のタスク固有メソッドを49%(相対的改善)上回る新たなベースラインを確立する。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Semantic Object-level Modeling for Robust Visual Camera Relocalization [14.998133272060695]
本稿では,オブジェクトの楕円形表現のためのオブジェクトレベルの自動ボクセルモデリング手法を提案する。
これらのモジュールはすべて、視覚的SLAMシステムに完全に介在している。
論文 参考訳(メタデータ) (2024-02-10T13:39:44Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Where is my Wallet? Modeling Object Proposal Sets for Egocentric Visual
Query Localization [119.23191388798921]
本稿では、視覚的見本から画像とビデオのデータセットにオブジェクトをローカライズする問題を扱う。
まず、現在のクエリ条件付きモデル設計とビジュアルクエリデータセットにおける暗黙バイアスを識別する。
本稿では,オブジェクト・プロモーサル・セット・コンテキストを考慮可能なトランスフォーマー・ベース・モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-18T22:50:50Z) - A Simple Approach for Visual Rearrangement: 3D Mapping and Semantic
Search [71.14527779661181]
視覚的な部屋の配置は、視覚的な入力のみに基づいてオブジェクトを並べ替えるエージェントの能力を評価する。
本稿では,(1)どのオブジェクトを並べ替える必要があるかを探索し,マッピングし,(2)タスクが完了するまで各オブジェクトを並べ替える,という方法を提案する。
論文 参考訳(メタデータ) (2022-06-21T02:33:57Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。