論文の概要: The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction
- arxiv url: http://arxiv.org/abs/2204.13340v2
- Date: Sat, 1 Apr 2023 07:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 01:23:45.506198
- Title: The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction
- Title(参考訳): 群衆の知恵:早期行動予測のための時間的進歩的注意
- Authors: Alexandros Stergiou, Dima Damen
- Abstract要約: 初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
- 参考スコア(独自算出の注目度): 104.628661890361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Early action prediction deals with inferring the ongoing action from
partially-observed videos, typically at the outset of the video. We propose a
bottleneck-based attention model that captures the evolution of the action,
through progressive sampling over fine-to-coarse scales. Our proposed Temporal
Progressive (TemPr) model is composed of multiple attention towers, one for
each scale. The predicted action label is based on the collective agreement
considering confidences of these towers. Extensive experiments over four video
datasets showcase state-of-the-art performance on the task of Early Action
Prediction across a range of encoder architectures. We demonstrate the
effectiveness and consistency of TemPr through detailed ablations.
- Abstract(参考訳): 初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から硬度までの段階的サンプリングにより,動作の進化を捉えるボトルネックに基づく注意モデルを提案する。
提案するテンポラルプログレッシブ(TemPr)モデルは,複数のアテンションタワーで構成されている。
予測された行動ラベルは、これらの塔の信頼性を考慮する集合的な合意に基づいている。
4つのビデオデータセットにわたる広範囲な実験は、さまざまなエンコーダアーキテクチャにわたる早期行動予測のタスクにおける最先端のパフォーマンスを示している。
詳細な説明を通じてTemPrの有効性と一貫性を示す。
関連論文リスト
- Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - DiffAnt: Diffusion Models for Action Anticipation [12.022815981853071]
将来の行動を予測することは本質的に不確実である。現在進行中の行動を含む観察ビデオセグメントを考えると、複数の行動が確実に続く可能性がある。
本研究では, 予測行動の予測を生成的視点から再考し, 拡散モデルを用いて, 様々な将来的行動の予測を行う。
コードとトレーニングされたモデルはGitHubで公開される予定です。
論文 参考訳(メタデータ) (2023-11-27T16:40:09Z) - Rethinking Learning Approaches for Long-Term Action Anticipation [32.67768331823358]
アクション予測は、ビデオの初期部分を観察した将来のアクションを予測することを含む。
本稿では,長期的行動予測を行う抗CIPATRについて紹介する。
本稿では,新しいトランスモデルを構築するための2段階学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-20T20:07:30Z) - Anticipative Video Transformer [105.20878510342551]
Precipative Video Transformer (AVT) は、エンド・ツー・エンドの注意に基づくビデオモデリングアーキテクチャである。
我々は,連続した将来のフレームの特徴を予測可能なフレーム特徴エンコーダを学習しながら,ビデオシーケンスにおける次のアクションを予測するためにモデルを共同で訓練する。
論文 参考訳(メタデータ) (2021-06-03T17:57:55Z) - Panoptic Segmentation Forecasting [71.75275164959953]
我々の目標は、最近の観測結果から近い将来の予測を行うことです。
この予測能力、すなわち予測能力は、自律的なエージェントの成功に不可欠なものだと考えています。
そこで我々は,2成分モデルを構築した。一方のコンポーネントは,オードメトリーを予測して背景物の力学を学習し,他方のコンポーネントは検出された物の力学を予測する。
論文 参考訳(メタデータ) (2021-04-08T17:59:16Z) - Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文 参考訳(メタデータ) (2021-01-13T08:04:10Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z) - Temporal Aggregate Representations for Long-Range Video Understanding [26.091400303122867]
将来の予測、特に長距離ビデオでは、現在と過去の観測から推論する必要がある。
フレキシブルな多粒質時間アグリゲーションフレームワークを用いて,時間的範囲,スケーリング,セマンティック抽象化のレベルに関する問題に対処する。
論文 参考訳(メタデータ) (2020-06-01T10:17:55Z) - TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文 参考訳(メタデータ) (2020-03-07T07:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。