論文の概要: UnLoc: A Unified Framework for Video Localization Tasks
- arxiv url: http://arxiv.org/abs/2308.11062v1
- Date: Mon, 21 Aug 2023 22:15:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 19:48:52.673510
- Title: UnLoc: A Unified Framework for Video Localization Tasks
- Title(参考訳): UnLoc: ビデオローカライゼーションタスクのための統一フレームワーク
- Authors: Shen Yan, Xuehan Xiong, Arsha Nagrani, Anurag Arnab, Zhonghao Wang,
Weina Ge, David Ross, Cordelia Schmid
- Abstract要約: UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
- 参考スコア(独自算出の注目度): 82.59118972890262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large-scale image-text pretrained models such as CLIP have been used
for multiple video-level tasks on trimmed videos, their use for temporal
localization in untrimmed videos is still a relatively unexplored task. We
design a new approach for this called UnLoc, which uses pretrained image and
text towers, and feeds tokens to a video-text fusion model. The output of the
fusion module are then used to construct a feature pyramid in which each level
connects to a head to predict a per-frame relevancy score and start/end time
displacements. Unlike previous works, our architecture enables Moment
Retrieval, Temporal Localization, and Action Segmentation with a single stage
model, without the need for action proposals, motion based pretrained features
or representation masking. Unlike specialized models, we achieve state of the
art results on all three different localization tasks with a unified approach.
Code will be available at: \url{https://github.com/google-research/scenic}.
- Abstract(参考訳): clipのような大規模な画像テキスト事前学習モデルは、トリミングビデオの複数のビデオレベルのタスクに使われているが、未トリミングビデオでの時間的ローカライズには、まだ比較的未検討の作業である。
我々は、事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給するUnLocと呼ばれる新しいアプローチを設計する。
融合モジュールの出力は、各レベルがヘッドと接続してフレーム毎の関連スコアと開始/終了時間のずれを予測する機能ピラミッドを構築するために使用される。
従来の作業とは異なり,モーメント検索や時間的局所化,アクションセグメンテーションを単一ステージモデルで実現しており,動作提案やモーションベース事前学習特徴,表現マスクは不要である。
専門的なモデルとは異なり、統一的なアプローチで3つの異なるローカライゼーションタスクの成果を達成できる。
コードは \url{https://github.com/google-research/scenic} で入手できる。
関連論文リスト
- VidLA: Video-Language Alignment at Scale [48.665918882615195]
大規模なビデオ言語アライメントのためのアプローチであるVidLAを提案する。
提案手法は,複数の検索ベンチマークにおける最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-21T22:36:24Z) - Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Bringing Image Scene Structure to Video via Frame-Clip Consistency of
Object Tokens [93.98605636451806]
StructureViTは、トレーニング中にのみ利用可能な少数の画像の構造を利用することで、ビデオモデルを改善する方法を示している。
SViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2022-06-13T17:45:05Z) - Few-Shot Temporal Action Localization with Query Adaptive Transformer [105.84328176530303]
TALの作品は、セグメントレベルのアノテーションを徹底した、多数のトレーニングビデオに依存している。
Few-shot TALは、モデルを1つのビデオで表される新しいクラスに適応させることを目的としている。
論文 参考訳(メタデータ) (2021-10-20T13:18:01Z) - STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos [17.232631075144592]
例えば、ビデオのセグメンテーションは、通常、トラッキング・バイ・検出のパラダイムに従っている。
単一段階における時間と空間をまたいだインスタンスのセグメント化と追跡を行う新しい手法を提案する。
提案手法は,複数のデータセットやタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T18:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。