論文の概要: Anticipative Video Transformer
- arxiv url: http://arxiv.org/abs/2106.02036v1
- Date: Thu, 3 Jun 2021 17:57:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 12:26:27.896867
- Title: Anticipative Video Transformer
- Title(参考訳): 予測ビデオトランス
- Authors: Rohit Girdhar and Kristen Grauman
- Abstract要約: Precipative Video Transformer (AVT) は、エンド・ツー・エンドの注意に基づくビデオモデリングアーキテクチャである。
我々は,連続した将来のフレームの特徴を予測可能なフレーム特徴エンコーダを学習しながら,ビデオシーケンスにおける次のアクションを予測するためにモデルを共同で訓練する。
- 参考スコア(独自算出の注目度): 105.20878510342551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Anticipative Video Transformer (AVT), an end-to-end
attention-based video modeling architecture that attends to the previously
observed video in order to anticipate future actions. We train the model
jointly to predict the next action in a video sequence, while also learning
frame feature encoders that are predictive of successive future frames'
features. Compared to existing temporal aggregation strategies, AVT has the
advantage of both maintaining the sequential progression of observed actions
while still capturing long-range dependencies--both critical for the
anticipation task. Through extensive experiments, we show that AVT obtains the
best reported performance on four popular action anticipation benchmarks:
EpicKitchens-55, EpicKitchens-100, EGTEA Gaze+, and 50-Salads, including
outperforming all submissions to the EpicKitchens-100 CVPR'21 challenge.
- Abstract(参考訳): 本稿では,先述した映像に応答して今後の行動を予測できる,エンドツーエンドの注意に基づくビデオモデリングアーキテクチャであるprotocipative video transformer (avt)を提案する。
我々は,ビデオシーケンスにおける次の動作を予測するために協調的にモデルを訓練すると同時に,将来のフレームの特徴を予測したフレーム特徴エンコーダを学習する。
既存の時間的アグリゲーション戦略と比較して、AVTは、観測された行動の逐次進行を維持すると同時に、長期依存を捕捉する利点がある。
EpicKitchens-55, EpicKitchens-100, EGTEA Gaze+, 50-Saladsの4つのアクション予測ベンチマークにおいて, AVTが最高のパフォーマンスを得られることを示す。
関連論文リスト
- AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Multiscale Video Pretraining for Long-Term Activity Forecasting [67.06864386274736]
マルチスケールビデオプレトレーニングは、複数の時間スケールで将来のビデオクリップの文脈化された表現を予測することを学ぶことによって、予測のための堅牢な表現を学習する。
MVPは、ビデオ内のアクションは、通常、短い時間スケールでアトミックアクションが起こり、より複雑なアクションがより長い時間スケールで発生する、マルチスケールな性質を持つ、という私たちの観察に基づいています。
Ego4DとEpic-Kitchens-55/100データセットにわたる包括的な実験では、MVPが最先端のメソッドをかなりのマージンで上回っていることが示されています。
論文 参考訳(メタデータ) (2023-07-24T14:55:15Z) - Rethinking Learning Approaches for Long-Term Action Anticipation [32.67768331823358]
アクション予測は、ビデオの初期部分を観察した将来のアクションを予測することを含む。
本稿では,長期的行動予測を行う抗CIPATRについて紹介する。
本稿では,新しいトランスモデルを構築するための2段階学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-20T20:07:30Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - NVIDIA-UNIBZ Submission for EPIC-KITCHENS-100 Action Anticipation
Challenge 2022 [13.603712913129506]
EPIC-Kitchen-100アクション予測課題の技術的詳細について述べる。
我々のモデリング、高次の時空変換器、エッジ学習を用いたメッセージパスニューラルネットワークはどちらも、2.5秒の推論コンテキストのみを観測し、アクション予測予測を形成するリカレントベースアーキテクチャである。
提案したトレーニングパイプラインでコンパイルされたモデルの予測スコアを平均化することにより、テストセット上で強力なパフォーマンスを実現しました。
論文 参考訳(メタデータ) (2022-06-22T06:34:58Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Clockwork Variational Autoencoders [33.17951971728784]
我々は,潜伏列の階層を利用したビデオ予測モデルである clockwork vae (cw-vae) を紹介する。
4つの多様なビデオ予測データセット上で,階層的遅延と時間的抽象化の両方の利点を実証する。
長期映像予測のためのMinecraftベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-18T18:23:04Z) - Transformation-based Adversarial Video Prediction on Large-Scale Data [19.281817081571408]
本稿では,映像から抽出したフレーム列を考慮に入れた上で,映像予測の課題に焦点をあてる。
まず, 判別器分解の系統的研究を行い, その状態を改善する。
そこで我々は,従来の隠れ状態が予測された動きにしたがって変化する新しい再帰ユニットを提案する。
論文 参考訳(メタデータ) (2020-03-09T10:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。