論文の概要: Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers
- arxiv url: http://arxiv.org/abs/2106.05392v1
- Date: Wed, 9 Jun 2021 21:16:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:22:47.962063
- Title: Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers
- Title(参考訳): ボールに目を向ける:ビデオトランスフォーマーの軌道上の注意
- Authors: Mandela Patrick, Dylan Campbell, Yuki M. Asano, Ishan Misra Florian
Metze, Christoph Feichtenhofer, Andrea Vedaldi, Jo\\~ao F. Henriques
- Abstract要約: 暗黙的に決定された動き経路に沿って情報を集約するビデオトランスフォーマー用の新しいドロップインブロックを提案する。
また,入力サイズに対する計算とメモリの二次的依存に対処する新しい手法を提案する。
我々は、Kineetics、Something V2、Epic-Kitchensデータセットの最先端結果を得る。
- 参考スコア(独自算出の注目度): 77.52828273633646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In video transformers, the time dimension is often treated in the same way as
the two spatial dimensions. However, in a scene where objects or the camera may
move, a physical point imaged at one location in frame $t$ may be entirely
unrelated to what is found at that location in frame $t+k$. These temporal
correspondences should be modeled to facilitate learning about dynamic scenes.
To this end, we propose a new drop-in block for video transformers --
trajectory attention -- that aggregates information along implicitly determined
motion paths. We additionally propose a new method to address the quadratic
dependence of computation and memory on the input size, which is particularly
important for high resolution or long videos. While these ideas are useful in a
range of settings, we apply them to the specific task of video action
recognition with a transformer model and obtain state-of-the-art results on the
Kinetics, Something--Something V2, and Epic-Kitchens datasets. Code and models
are available at: https://github.com/facebookresearch/Motionformer
- Abstract(参考訳): ビデオトランスでは、時間次元は2つの空間次元と同じ方法で扱われることが多い。
しかし、オブジェクトやカメラが動くシーンでは、フレーム$t$の1つの場所にある物理ポイントは、フレーム$t+k$でその場所にあるものとは全く無関係かもしれない。
これらの時間対応は動的シーンの学習を容易にするためにモデル化されるべきである。
そこで本研究では,暗黙的に決定された動き経路に沿って情報を集約するビデオトランスフォーマタのための新しいドロップインブロックを提案する。
また,高解像度ビデオや長時間ビデオにおいて特に重要な入力サイズに対する計算とメモリの二次的依存に対処する新しい手法を提案する。
これらのアイデアは様々な場面で有用であるが、トランスフォーマーモデルを用いたビデオ行動認識の特定のタスクに適用し、Kineetics、Something V2、Epic-Kitchensデータセットの最先端結果を得る。
コードとモデルは、https://github.com/facebookresearch/Motionformer.comで入手できる。
関連論文リスト
- Controllable Longer Image Animation with Diffusion Models [12.565739255499594]
動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。
本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。
本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:08:00Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - Motion Transformer for Unsupervised Image Animation [37.35527776043379]
画像アニメーションは、駆動ビデオから学んだ動きを用いて、ソースイメージをアニメーションすることを目的としている。
現在の最先端の手法は、通常、運動情報を予測するために畳み込みニューラルネットワーク(CNN)を使用する。
本稿では,視覚変換器をベースとした動き推定器構築の試みである動き変換器を提案する。
論文 参考訳(メタデータ) (2022-09-28T12:04:58Z) - Playable Environments: Video Manipulation in Space and Time [98.0621309257937]
再生可能な環境 - 空間と時間におけるインタラクティブなビデオ生成と操作のための新しい表現。
提案フレームワークでは,1枚の画像を推論時に生成し,対象物を3次元に移動させ,所望のアクションを連続して生成する。
提案手法は,各フレームの環境状態を構築し,提案したアクションモジュールで操作し,ボリュームレンダリングで画像空間に復号化することができる。
論文 参考訳(メタデータ) (2022-03-03T18:51:05Z) - Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文 参考訳(メタデータ) (2021-12-02T18:59:02Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Object-Region Video Transformers [100.23380634952083]
本稿では,オブジェクト表現でトランスフォーマー映像層を拡張するエポbject中心のアプローチであるObject-Region Transformers Video(ORViT)を提案する。
ORViTブロックは2つのオブジェクトレベルのストリームで構成されています。
オブジェクト表現をトランスフォーマーアーキテクチャに組み込んだモデルの価値を実証し、全てのタスクにまたがってパフォーマンスを強く向上させ、検討する。
論文 参考訳(メタデータ) (2021-10-13T17:51:46Z) - Generative Video Transformer: Can Objects be the Words? [22.788711301106765]
本稿では,オブジェクト中心のアプローチを用いてシーンを生成ビデオトランスに適したトークンに分解するオブジェクト中心ビデオトランス (OCVT) を提案する。
映像をオブジェクトに分解することで、完全に教師されていないモデルでは、シーン内の複数のオブジェクトの複雑な時間的ダイナミクスを学習し、ビデオの将来のフレームを生成することができる。
私たちのモデルはピクセルベースモデルよりもメモリ効率が大幅に向上し、48GBのGPUで最大70フレームの動画をトレーニングすることができます。
論文 参考訳(メタデータ) (2021-07-20T03:08:39Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。