論文の概要: Single-Stage Visual Query Localization in Egocentric Videos
- arxiv url: http://arxiv.org/abs/2306.09324v1
- Date: Thu, 15 Jun 2023 17:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 13:16:42.002287
- Title: Single-Stage Visual Query Localization in Egocentric Videos
- Title(参考訳): エゴセントリックビデオにおけるワンステップビジュアルクエリローカライゼーション
- Authors: Hanwen Jiang, Santhosh Kumar Ramakrishnan, Kristen Grauman
- Abstract要約: エンドツーエンドのトレーニングが可能なシングルステージのVQLフレームワークを提案する。
我々は,クエリとビデオフレーム間の問合せ対応を考慮し,問合せとビデオの関係を確立する。
実験により,提案手法の精度は従来のVQL手法よりも20%向上し,推論速度は10倍向上した。
- 参考スコア(独自算出の注目度): 79.71065005161566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Query Localization on long-form egocentric videos requires
spatio-temporal search and localization of visually specified objects and is
vital to build episodic memory systems. Prior work develops complex multi-stage
pipelines that leverage well-established object detection and tracking methods
to perform VQL. However, each stage is independently trained and the complexity
of the pipeline results in slow inference speeds. We propose VQLoC, a novel
single-stage VQL framework that is end-to-end trainable. Our key idea is to
first build a holistic understanding of the query-video relationship and then
perform spatio-temporal localization in a single shot manner. Specifically, we
establish the query-video relationship by jointly considering query-to-frame
correspondences between the query and each video frame and frame-to-frame
correspondences between nearby video frames. Our experiments demonstrate that
our approach outperforms prior VQL methods by 20% accuracy while obtaining a
10x improvement in inference speed. VQLoC is also the top entry on the Ego4D
VQ2D challenge leaderboard. Project page: https://hwjiang1510.github.io/VQLoC/
- Abstract(参考訳): 長方形エゴセントリックビデオにおける視覚的クエリローカライズには時空間探索と視覚特定オブジェクトのローカライズが必要であり,エピソジックメモリシステムの構築に不可欠である。
以前の作業では、確立されたオブジェクト検出とトラッキングメソッドを活用してVQLを実行する、複雑なマルチステージパイプラインが開発されている。
しかしながら、各ステージは独立してトレーニングされ、パイプラインの複雑さは推論速度を遅くする。
エンドツーエンドのトレーニングが可能な新しいシングルステージVQLフレームワークであるVQLoCを提案する。
我々の重要なアイデアは、まずクエリーとビデオの関係を総合的に理解し、次に1つのショットで時空間的ローカライズを行うことです。
具体的には,問合せと各映像フレーム間の問合せと周辺映像フレーム間のフレーム間対応を同時に考慮し,問合せと映像間の関係を確立する。
実験により,提案手法の精度は従来のVQL手法よりも20%向上し,推論速度は10倍向上した。
VQLoCはまた、Ego4D VQ2Dチャレンジリーダーボードのトップエントリでもある。
プロジェクトページ: https://hwjiang1510.github.io/VQLoC/
関連論文リスト
- Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Frame-wise Cross-modal Matching for Video Moment Retrieval [32.68921139236391]
ビデオモーメント検索は、与えられた言語クエリのためにビデオ中の瞬間を検索するターゲットである。
本課題は,1)未編集ビデオにおける関連モーメントのローカライズの必要性,2)テキストクエリとビデオコンテンツ間のセマンティックなギャップを埋めることである。
本稿では,対話モデルに基づいて時間境界を予測できる注意的相互関連マッチングモデルを提案する。
論文 参考訳(メタデータ) (2020-09-22T10:25:41Z) - VidCEP: Complex Event Processing Framework to Detect Spatiotemporal
Patterns in Video Streams [5.53329677986653]
複合イベント処理(CEP)のようなミドルウェアシステムは、データストリームからパターンを抽出し、タイムリーな方法でユーザに通知を送信する。
現在のCEPシステムは、非構造化データモデルと表現型クエリ言語のために、ビデオストリームのクエリに固有の制限がある。
ビデオストリームのための,インメモリ,ほぼリアルタイムな複合イベントマッチングフレームワークであるVidCEPを提案する。
論文 参考訳(メタデータ) (2020-07-15T16:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。