論文の概要: PRVQL: Progressive Knowledge-guided Refinement for Robust Egocentric Visual Query Localization
- arxiv url: http://arxiv.org/abs/2502.07707v1
- Date: Tue, 11 Feb 2025 17:04:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:07:29.715931
- Title: PRVQL: Progressive Knowledge-guided Refinement for Robust Egocentric Visual Query Localization
- Title(参考訳): PRVQL:ロバストなエゴシックなビジュアルクエリローカライゼーションのためのプログレッシブな知識誘導型リファインメント
- Authors: Bing Fan, Yunhe Feng, Yapeng Tian, Yuewei Lin, Yan Huang, Heng Fan,
- Abstract要約: エゴセントリックなビジュアルクエリローカライゼーション(EgoVQL)は、空間と時間のターゲットを、一人称ビデオからローカライズすることに焦点を当てている。
EgoVQL用の新しいプログレッシブ知識誘導型リファインメントフレームワークであるPRVQLを紹介する。
- 参考スコア(独自算出の注目度): 32.75411084716383
- License:
- Abstract: Egocentric visual query localization (EgoVQL) focuses on localizing the target of interest in space and time from first-person videos, given a visual query. Despite recent progressive, existing methods often struggle to handle severe object appearance changes and cluttering background in the video due to lacking sufficient target cues, leading to degradation. Addressing this, we introduce PRVQL, a novel Progressive knowledge-guided Refinement framework for EgoVQL. The core is to continuously exploit target-relevant knowledge directly from videos and utilize it as guidance to refine both query and video features for improving target localization. Our PRVQL contains multiple processing stages. The target knowledge from one stage, comprising appearance and spatial knowledge extracted via two specially designed knowledge learning modules, are utilized as guidance to refine the query and videos features for the next stage, which are used to generate more accurate knowledge for further feature refinement. With such a progressive process, target knowledge in PRVQL can be gradually improved, which, in turn, leads to better refined query and video features for localization in the final stage. Compared to previous methods, our PRVQL, besides the given object cues, enjoys additional crucial target information from a video as guidance to refine features, and hence enhances EgoVQL in complicated scenes. In our experiments on challenging Ego4D, PRVQL achieves state-of-the-art result and largely surpasses other methods, showing its efficacy. Our code, model and results will be released at https://github.com/fb-reps/PRVQL.
- Abstract(参考訳): エゴセントリックなビジュアルクエリローカライゼーション(EgoVQL)は、視覚的なクエリを与えられたファーストパーソンのビデオから、空間と時間への関心のターゲットをローカライズすることに焦点を当てている。
最近の進歩にも拘わらず、既存の方法では、厳しい物体の外観の変化や、十分な目標の手がかりが不足しているため、ビデオの背景を散らかすのに苦労することが多い。
これに対応するために、私たちは、EgoVQL用の新しいプログレッシブ知識誘導リファインメントフレームワークであるPRVQLを紹介します。
コアとなるのは、ビデオから直接ターゲット関連知識を継続的に活用し、クエリ機能とビデオ機能の両方を改良して、ターゲットのローカライゼーションを改善するためのガイダンスとして利用することである。
PRVQLには複数の処理ステージがあります。
2つの特別に設計された知識学習モジュールを介して抽出された外観と空間的知識からなる1段階からの目標知識を、次の段階のクエリとビデオの特徴を洗練するためのガイダンスとして利用し、さらなる特徴改善のためにより正確な知識を生成するために使用される。
このようなプログレッシブなプロセスでは、PRVQLのターゲット知識が徐々に改善され、最終段階におけるローカライゼーションのためのクエリとビデオ機能が改善される。
従来の方法と比較して、PRVQLは、与えられたオブジェクトキューに加えて、機能を洗練するためのガイダンスとして、ビデオから重要なターゲット情報を楽しむため、複雑なシーンでEgoVQLを拡張する。
Ego4Dに挑戦する実験では、PRVQLは最先端の結果を達成し、他のメソッドを大幅に上回り、その有効性を示している。
私たちのコード、モデル、結果はhttps://github.com/fb-reps/PRVQL.comでリリースされます。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Zero-shot Action Localization via the Confidence of Large Vision-Language Models [19.683461002518147]
真のZEro-shot Action Localization法(ZEAL)を提案する。
具体的には、大規模言語モデル(LLM)の組み込みアクション知識を活用して、アクションを詳細に記述する。
我々は、訓練をせずに、挑戦的なベンチマークでゼロショットアクションローカライゼーションの顕著な結果を示す。
論文 参考訳(メタデータ) (2024-10-18T09:51:14Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Single-Stage Visual Query Localization in Egocentric Videos [79.71065005161566]
エンドツーエンドのトレーニングが可能なシングルステージのVQLフレームワークを提案する。
我々は,クエリとビデオフレーム間の問合せ対応を考慮し,問合せとビデオの関係を確立する。
実験により,提案手法の精度は従来のVQL手法よりも20%向上し,推論速度は10倍向上した。
論文 参考訳(メタデータ) (2023-06-15T17:57:28Z) - VRAG: Region Attention Graphs for Content-Based Video Retrieval [85.54923500208041]
Region Attention Graph Networks (VRAG) は最先端のビデオレベルの手法を改善している。
VRAGは、地域レベルの特徴を通して、より細かい粒度のビデオを表現し、地域レベルの関係を通して、ビデオ時間ダイナミクスをエンコードする。
本研究では,映像のセグメント化や映像検索にショット埋め込みを用いることで,映像レベルとフレームレベルの性能差を低減できることを示す。
論文 参考訳(メタデータ) (2022-05-18T16:50:45Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - When Video Classification Meets Incremental Classes [12.322018693269952]
本稿では,忘れを忘れるテキスト触媒の課題に対処する枠組みを提案する。
まず, 蒸留前の粒度・時間的知識を緩和する。
第2に,古いクラスとキーフレームの代表的なビデオインスタンスを,厳密なストレージ予算の下で選択・保存する,二重例選択手法を提案する。
論文 参考訳(メタデータ) (2021-06-30T06:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。