論文の概要: End-to-End Spatio-Temporal Action Localisation with Video Transformers
- arxiv url: http://arxiv.org/abs/2304.12160v1
- Date: Mon, 24 Apr 2023 15:14:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 14:34:41.053413
- Title: End-to-End Spatio-Temporal Action Localisation with Video Transformers
- Title(参考訳): ビデオトランスフォーマによるエンドツーエンド時空間行動局所化
- Authors: Alexey Gritsenko, Xuehan Xiong, Josip Djolonga, Mostafa Dehghani, Chen
Sun, Mario Lu\v{c}i\'c, Cordelia Schmid, Anurag Arnab
- Abstract要約: 本稿では,入力ビデオを直接取り込み,各フレームにチューブレットを挿入する純粋変換器モデルを提案する。
フレキシブルなモデルは、個々のフレームに対する疎結合の監視や、フルチューブレットアノテーションでトレーニングすることができます。
広範囲なアブレーション実験を行い、4つの異なる時間的行動ローカライゼーションベンチマークにおける最先端の結果を大幅に向上させる。
- 参考スコア(独自算出の注目度): 66.55671690589138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The most performant spatio-temporal action localisation models use external
person proposals and complex external memory banks. We propose a fully
end-to-end, purely-transformer based model that directly ingests an input
video, and outputs tubelets -- a sequence of bounding boxes and the action
classes at each frame. Our flexible model can be trained with either sparse
bounding-box supervision on individual frames, or full tubelet annotations. And
in both cases, it predicts coherent tubelets as the output. Moreover, our
end-to-end model requires no additional pre-processing in the form of
proposals, or post-processing in terms of non-maximal suppression. We perform
extensive ablation experiments, and significantly advance the state-of-the-art
results on four different spatio-temporal action localisation benchmarks with
both sparse keyframes and full tubelet annotations.
- Abstract(参考訳): 最もパフォーマンスの高い時空間行動ローカライゼーションモデルは、外部人物の提案と複雑な外部メモリバンクを使用する。
本稿では、入力ビデオを直接取り込み、各フレームにおける境界ボックスとアクションクラスのシーケンスであるチューブレットを出力する完全エンドツーエンドの純粋変換器ベースモデルを提案する。
フレキシブルモデルでは、個々のフレームの疎境界管理や、フルチューブレットアノテーションでトレーニングすることができます。
いずれの場合も、コヒーレントなチューブレットを出力として予測する。
さらに、エンドツーエンドモデルでは、提案の形で追加の前処理や、最大化抑制の観点からの後処理を必要としない。
我々は広範囲なアブレーション実験を行い,4つの異なる時空間的行動局所化ベンチマークにおいて,希薄なキーフレームと完全なチューブレットアノテーションを併用した最新結果を著しく改善した。
関連論文リスト
- ToonCrafter: Generative Cartoon Interpolation [63.52353451649143]
ToonCrafterは、従来の文通ベースの漫画映像を超越した新しいアプローチである。
ToonCrafterは、生成漫画にライブアクションビデオの動きを適用する際に直面する課題を効果的に解決する。
実験結果から,提案手法は視覚的に説得力があり,より自然に作用するだけでなく,非閉塞性も効果的に扱えることが示された。
論文 参考訳(メタデータ) (2024-05-28T07:58:33Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - Adaptive Perception Transformer for Temporal Action Localization [13.735402329482719]
本稿では適応知覚変換器(AdaPerFormer)と呼ばれる新しいエンドツーエンドモデルを提案する。
1つのブランチは、全ビデオシーケンスをモデル化し、グローバルな関連するコンテキストを集約するグローバルな認識の注意を気にする。
他のブランチは、フレーム内およびフレーム間の情報を集約するローカルな畳み込みシフトに集中する。
論文 参考訳(メタデータ) (2022-08-25T07:42:48Z) - Efficient U-Transformer with Boundary-Aware Loss for Action Segmentation [34.502472072265164]
U-Netアーキテクチャを組み込むことで、時間的畳み込みのない純粋なトランスフォーマーベースモデルを設計する。
本稿では,アテンションモジュールからのフレーム間の類似度スコアの分布に基づく境界認識損失を提案する。
論文 参考訳(メタデータ) (2022-05-26T15:30:34Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Convolutional Autoencoders for Human Motion Infilling [37.16099544563645]
モーションインフィルメントは、入力されたポーズがスタートシーケンスを確実に予測し、エンドシーケンスに自然に遷移するような、欠落したギャップを埋めることを目的としている。
一つのモデルを用いて、異なるタイプのアクティビティ間の自然な遷移を生成できることが示される。
提案手法は, 欠落フレーム全体を埋めるだけでなく, 部分的なポーズが利用できるようなギャップを埋めるのにも利用できる。
論文 参考訳(メタデータ) (2020-10-22T08:45:38Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。