論文の概要: TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks
- arxiv url: http://arxiv.org/abs/2011.11479v3
- Date: Tue, 17 Aug 2021 17:47:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 02:30:52.771397
- Title: TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks
- Title(参考訳): TSP: ローカライゼーションタスクのためのビデオエンコーダの一時的事前学習
- Authors: Humam Alwassel, Silvio Giancola, Bernard Ghanem
- Abstract要約: 本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。
大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
- 参考スコア(独自算出の注目度): 79.01176229586855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the large memory footprint of untrimmed videos, current
state-of-the-art video localization methods operate atop precomputed video clip
features. These features are extracted from video encoders typically trained
for trimmed action classification tasks, making such features not necessarily
suitable for temporal localization. In this work, we propose a novel supervised
pretraining paradigm for clip features that not only trains to classify
activities but also considers background clips and global video information to
improve temporal sensitivity. Extensive experiments show that using features
trained with our novel pretraining strategy significantly improves the
performance of recent state-of-the-art methods on three tasks: Temporal Action
Localization, Action Proposal Generation, and Dense Video Captioning. We also
show that our pretraining approach is effective across three encoder
architectures and two pretraining datasets. We believe video feature encoding
is an important building block for localization algorithms, and extracting
temporally-sensitive features should be of paramount importance in building
more accurate models. The code and pretrained models are available on our
project website.
- Abstract(参考訳): 未処理ビデオのメモリフットプリントが大きいため、現在の最先端のビデオローカライズ手法は、事前計算されたビデオクリップ機能上で動作している。
これらの特徴は、典型的にはトリミングされた動作分類タスクのために訓練されたビデオエンコーダから抽出される。
本研究は,列車が活動の分類を行うだけでなく,背景クリップやグローバル映像情報も考慮し,時間的感度を向上させるクリップ特徴の教師付き事前訓練パラダイムを提案する。
新たな事前訓練戦略で訓練した特徴を用いることで,時間的行動局所化,行動提案生成,Dense Video Captioningの3つのタスクにおける最新手法の性能が大幅に向上することを示す。
また、事前学習アプローチは、3つのエンコーダアーキテクチャと2つの事前学習データセットで有効であることを示す。
我々は、ビデオ特徴符号化がローカライズアルゴリズムの重要なビルディングブロックであり、より正確なモデルを構築する上では、時間に敏感な特徴の抽出が最重要であると考えている。
コードと事前訓練されたモデルは、プロジェクトのWebサイトで利用可能です。
関連論文リスト
- Whats in a Video: Factorized Autoregressive Decoding for Online Dense Video Captioning [71.94122309290537]
ビデオの高密度キャプションを生成するための,効率的なオンライン手法を提案する。
我々のモデルは、新しい自己回帰因子化復号化アーキテクチャを使用している。
提案手法は,オフライン手法とオンライン手法の両方と比較して優れた性能を示し,計算コストを20%削減する。
論文 参考訳(メタデータ) (2024-11-22T02:46:44Z) - ActPrompt: In-Domain Feature Adaptation via Action Cues for Video Temporal Grounding [40.60371529725805]
本稿では,機能適応のためのドメイン内ファインチューニングのパラダイムを提案する。
本稿では, VLMのイメージエンコーダにアクションキューを注入し, アクションに敏感なパターンの発見に役立てるアクションキュー注入型テンポラルプロンプト学習(ActPrompt)を提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - Spatio-Temporal Crop Aggregation for Video Representation Learning [33.296154476701055]
本モデルは,事前学習したバックボーンで抽出したビデオクリップレベルの特徴セットから学習することで,長距離ビデオ機能を構築する。
ビデオ表現は, 線形, 非線形, および$k$-NNを用いて, 共通の行動分類データセットを探索することにより, 最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-11-30T14:43:35Z) - Contrastive Language-Action Pre-training for Temporal Localization [64.34349213254312]
ロングフォームビデオ理解には、時間的に活動や言語をローカライズできるアプローチが必要である。
これらの制限は、クラスアノテーションによって管理される時間的にトリミングされたビデオの大きなデータセットを事前トレーニングすることで対処できる。
本研究では,アクセプションの形で活動,背景ビデオクリップ,言語間の視覚・言語的関係を捉えるために,マスク付きコントラスト学習損失を導入する。
論文 参考訳(メタデータ) (2022-04-26T13:17:50Z) - Unsupervised Pre-training for Temporal Action Localization Tasks [76.01985780118422]
本稿では、Pseudo Action Localization (PAL) と呼ばれる自己教師付きプレテキストタスクを、時間的アクションローカライゼーションタスク(UP-TAL)のための教師なし事前訓練機能エンコーダに提案する。
具体的には、まず1つのビデオから複数のクリップを含む時間領域をランダムに選択し、他の2つのビデオの異なる時間的位置に貼り付ける。
前提課題は、2つの合成ビデオからペーストした擬似行動領域の特徴を調整し、両者の合意を最大化することである。
論文 参考訳(メタデータ) (2022-03-25T12:13:43Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。