論文の概要: HERO-VQL: Hierarchical, Egocentric and Robust Visual Query Localization
- arxiv url: http://arxiv.org/abs/2509.00385v1
- Date: Sat, 30 Aug 2025 06:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.207306
- Title: HERO-VQL: Hierarchical, Egocentric and Robust Visual Query Localization
- Title(参考訳): HERO-VQL:階層的、エゴシック、ロバストなビジュアルクエリローカライゼーション
- Authors: Joohyun Chang, Soyeon Hong, Hyogun Lee, Seong Jong Ha, Dongho Lee, Seong Tae Kim, Jinwoo Choi,
- Abstract要約: 本稿では,物体認識における人間の認知プロセスに触発された新しい手法であるHERO-VQLを紹介する。
トップダウン 注意誘導は、高レベルのコンテキストにクラストークンを活用することで、注意機構を洗練します。
EgoAugは、クエリを基底アノテーションからランダムに選択された対応するオブジェクトに置き換えることで、クエリの多様性を向上させる。
- 参考スコア(独自算出の注目度): 13.581537394737923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we tackle the egocentric visual query localization (VQL), where a model should localize the query object in a long-form egocentric video. Frequent and abrupt viewpoint changes in egocentric videos cause significant object appearance variations and partial occlusions, making it difficult for existing methods to achieve accurate localization. To tackle these challenges, we introduce Hierarchical, Egocentric and RObust Visual Query Localization (HERO-VQL), a novel method inspired by human cognitive process in object recognition. We propose i) Top-down Attention Guidance (TAG) and ii) Egocentric Augmentation based Consistency Training (EgoACT). Top-down Attention Guidance refines the attention mechanism by leveraging the class token for high-level context and principal component score maps for fine-grained localization. To enhance learning in diverse and challenging matching scenarios, EgoAug enhances query diversity by replacing the query with a randomly selected corresponding object from groundtruth annotations and simulates extreme viewpoint changes by reordering video frames. Additionally, CT loss enforces stable object localization across different augmentation scenarios. Extensive experiments on VQ2D dataset validate that HERO-VQL effectively handles egocentric challenges, significantly outperforming baselines.
- Abstract(参考訳): 本研究では,長めの自己中心型ビデオにおいて,モデルがクエリオブジェクトをローカライズする,エゴセントリックなビジュアルクエリローカライゼーション(VQL)に取り組む。
エゴセントリックビデオにおける頻繁かつ急激な視点の変化は、オブジェクトの出現のばらつきと部分的な閉塞を引き起こすため、既存の手法が正確なローカライゼーションを達成するのが困難である。
これらの課題に対処するために、物体認識における人間の認知プロセスに触発された新しい手法である階層型、エゴセントリック型、RObustビジュアルクエリローカライゼーション(HERO-VQL)を導入する。
特集にあたって
一 トップダウン注意誘導(TAG)及び
二 自己中心的強化に基づく一貫性訓練(EgoACT)
トップダウン注意誘導は、クラストークンを高レベルなコンテキストに利用し、主成分スコアマップを微粒なローカライゼーションに利用することにより、注意機構を洗練する。
多様な、困難なマッチングシナリオでの学習を強化するために、EgoAugは、クエリを基本となるアノテーションからランダムに選択された対応するオブジェクトに置き換え、ビデオフレームを並べ替えることで極端な視点変化をシミュレートすることで、クエリの多様性を向上させる。
さらに、CTの損失は、様々な拡張シナリオにわたる安定したオブジェクトのローカライゼーションを強制する。
VQ2Dデータセットに関する大規模な実験では、HERO-VQLがエゴセントリックな課題を効果的に処理し、ベースラインを大幅に上回ることが確認されている。
関連論文リスト
- RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations [55.74675012171316]
RELOCATEは、長いビデオにおけるビジュアルクエリローカライゼーションの難しいタスクを実行するために設計された、トレーニング不要のベースラインである。
タスク固有のトレーニングを不要にするために、RELOCATEは事前訓練された視覚モデルから派生した領域ベースの表現を利用する。
論文 参考訳(メタデータ) (2024-12-02T18:59:53Z) - ObjectRelator: Enabling Cross-View Object Relation Understanding Across Ego-Centric and Exo-Centric Perspectives [109.11714588441511]
Ego-Exoオブジェクト対応タスクは,セグメンテーションを通じて,ego-Exoパースペクティブ間のオブジェクト関係を理解することを目的としている。
最近提案されたセグメンテーション手法であるPSALMは、このタスクでデモされたゼロショット能力を例外として挙げている。
我々は、マルチモーダルコンディションフュージョンとSSLベースのクロスビューオブジェクトアライメントという、2つの重要なモジュールを特徴とする新しいアプローチであるObjectRelatorを提案する。
論文 参考訳(メタデータ) (2024-11-28T12:01:03Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Where is my Wallet? Modeling Object Proposal Sets for Egocentric Visual
Query Localization [119.23191388798921]
本稿では、視覚的見本から画像とビデオのデータセットにオブジェクトをローカライズする問題を扱う。
まず、現在のクエリ条件付きモデル設計とビジュアルクエリデータセットにおける暗黙バイアスを識別する。
本稿では,オブジェクト・プロモーサル・セット・コンテキストを考慮可能なトランスフォーマー・ベース・モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-18T22:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。