論文の概要: Future Transformer for Long-term Action Anticipation
- arxiv url: http://arxiv.org/abs/2205.14022v1
- Date: Fri, 27 May 2022 14:47:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 14:56:27.448005
- Title: Future Transformer for Long-term Action Anticipation
- Title(参考訳): 長期的行動予測のための未来変圧器
- Authors: Dayoung Gong, Joonseok Lee, Manjin Kim, Seong Jong Ha, Minsu Cho
- Abstract要約: 我々はFuture Transformer(FUTR)と呼ばれる行動予測のためのエンドツーエンドの注意モデルを提案する。
従来の自己回帰モデルとは異なり、提案手法は並列復号法において将来の動作のシーケンス全体を予測することを学習する。
本手法は,Breakfastと50 Saladsの2つの標準ベンチマークで評価し,最先端の結果を得た。
- 参考スコア(独自算出の注目度): 33.771374384674836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of predicting future actions from a video is crucial for a
real-world agent interacting with others. When anticipating actions in the
distant future, we humans typically consider long-term relations over the whole
sequence of actions, i.e., not only observed actions in the past but also
potential actions in the future. In a similar spirit, we propose an end-to-end
attention model for action anticipation, dubbed Future Transformer (FUTR), that
leverages global attention over all input frames and output tokens to predict a
minutes-long sequence of future actions. Unlike the previous autoregressive
models, the proposed method learns to predict the whole sequence of future
actions in parallel decoding, enabling more accurate and fast inference for
long-term anticipation. We evaluate our method on two standard benchmarks for
long-term action anticipation, Breakfast and 50 Salads, achieving
state-of-the-art results.
- Abstract(参考訳): ビデオから将来のアクションを予測するタスクは、他の人と対話する現実世界のエージェントにとって不可欠である。
遠未来の行動を予測する場合、人間は通常、行動の系列全体、すなわち過去の観察された行動だけでなく、将来的な行動についても長期的な関係を考える。
同様の考え方として、全ての入力フレームと出力トークンに対してグローバルに注意を向け、将来のアクションの数分のシーケンスを予測できる、future transformer(futr)と呼ばれるアクション予測のエンドツーエンドの注意モデルを提案する。
従来の自己回帰モデルとは異なり、提案手法は並列復号法における未来の行動列全体を予測し、より正確かつ高速な予測を可能にする。
本手法は,Breakfastと50 Saladsの2つの標準ベンチマークで評価し,最先端の結果を得た。
関連論文リスト
- Gated Temporal Diffusion for Stochastic Long-Term Dense Anticipation [17.4088244981231]
長期的な行動予測は、自律運転や人間とロボットの相互作用など、多くのアプリケーションにとって重要な課題となっている。
本稿では,Gated Temporal Diffusion (GTD) ネットワークを提案する。
我々のモデルは、Breakfast、Ambly101、50Saladsの両方の決定論的設定で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-07-16T17:48:05Z) - DiffAnt: Diffusion Models for Action Anticipation [12.022815981853071]
将来の行動を予測することは本質的に不確実である。現在進行中の行動を含む観察ビデオセグメントを考えると、複数の行動が確実に続く可能性がある。
本研究では, 予測行動の予測を生成的視点から再考し, 拡散モデルを用いて, 様々な将来的行動の予測を行う。
コードとトレーニングされたモデルはGitHubで公開される予定です。
論文 参考訳(メタデータ) (2023-11-27T16:40:09Z) - Rethinking Learning Approaches for Long-Term Action Anticipation [32.67768331823358]
アクション予測は、ビデオの初期部分を観察した将来のアクションを予測することを含む。
本稿では,長期的行動予測を行う抗CIPATRについて紹介する。
本稿では,新しいトランスモデルを構築するための2段階学習手法を提案する。
論文 参考訳(メタデータ) (2022-10-20T20:07:30Z) - Weakly-supervised Action Transition Learning for Stochastic Human Motion
Prediction [81.94175022575966]
動作駆動型人間の動作予測の課題について紹介する。
一連の動作ラベルと短い動作履歴から、複数の可算な将来の動作を予測することを目的としている。
論文 参考訳(メタデータ) (2022-05-31T08:38:07Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文 参考訳(メタデータ) (2021-01-13T08:04:10Z) - Long Term Motion Prediction Using Keyposes [122.22758311506588]
長期的な予測を達成するには、瞬時に人間のポーズを予測する必要があると論じている。
このようなポーズを「キーポス」と呼び、後続のキーポスを線形に補間して近似する複素運動と呼ぶ。
このようなキープレースのシーケンスを学習することで,将来的には最大5秒まで,非常に長期にわたる動作を予測できることが示される。
論文 参考訳(メタデータ) (2020-12-08T20:45:51Z) - Long-Term Anticipation of Activities with Cycle Consistency [90.79357258104417]
本稿では,観察されたフレームの特徴から直接将来の活動を予測し,エンドツーエンドで学習するフレームワークを提案する。
我々のフレームワークは、Breakfastデータセットと50Saladsという2つのデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-02T15:41:32Z) - TTPP: Temporal Transformer with Progressive Prediction for Efficient
Action Anticipation [46.28067541184604]
ビデオアクション予測は、観察されたフレームから将来のアクションカテゴリを予測することを目的としている。
現在の最先端のアプローチは主に、履歴情報を隠された状態にエンコードするために、リカレントニューラルネットワークを利用する。
本稿では,プログレッシブ予測フレームワークを用いた簡易かつ効率的な時間変換器を提案する。
論文 参考訳(メタデータ) (2020-03-07T07:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。