論文の概要: DiffAnt: Diffusion Models for Action Anticipation
- arxiv url: http://arxiv.org/abs/2311.15991v1
- Date: Mon, 27 Nov 2023 16:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 14:15:59.875440
- Title: DiffAnt: Diffusion Models for Action Anticipation
- Title(参考訳): DiffAnt: アクション予測のための拡散モデル
- Authors: Zeyun Zhong, Chengzhi Wu, Manuel Martin, Michael Voit, Juergen Gall,
J\"urgen Beyerer
- Abstract要約: 将来の行動を予測することは本質的に不確実である。現在進行中の行動を含む観察ビデオセグメントを考えると、複数の行動が確実に続く可能性がある。
本研究では, 予測行動の予測を生成的視点から再考し, 拡散モデルを用いて, 様々な将来的行動の予測を行う。
コードとトレーニングされたモデルはGitHubで公開される予定です。
- 参考スコア(独自算出の注目度): 12.022815981853071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Anticipating future actions is inherently uncertain. Given an observed video
segment containing ongoing actions, multiple subsequent actions can plausibly
follow. This uncertainty becomes even larger when predicting far into the
future. However, the majority of existing action anticipation models adhere to
a deterministic approach, neglecting to account for future uncertainties. In
this work, we rethink action anticipation from a generative view, employing
diffusion models to capture different possible future actions. In this
framework, future actions are iteratively generated from standard Gaussian
noise in the latent space, conditioned on the observed video, and subsequently
transitioned into the action space. Extensive experiments on four benchmark
datasets, i.e., Breakfast, 50Salads, EpicKitchens, and EGTEA Gaze+, are
performed and the proposed method achieves superior or comparable results to
state-of-the-art methods, showing the effectiveness of a generative approach
for action anticipation. Our code and trained models will be published on
GitHub.
- Abstract(参考訳): 将来の行動は本質的に不確実である。
進行中のアクションを含む観察ビデオセグメントが与えられた後、複数のアクションが確実に続く。
この不確実性は、未来まで予測するとさらに大きくなる。
しかし、既存の行動予測モデルの大部分は決定論的アプローチに固執しており、将来の不確実性を考慮することを怠っている。
本研究では, 異なる将来的行動を捉えるために拡散モデルを用いて, 生成的視点から行動予測を再考する。
この枠組みでは、潜伏空間における標準ガウス雑音から将来の動作を反復的に生成し、観測されたビデオ上で条件付けし、その後、アクション空間に遷移する。
4つのベンチマークデータセット、すなわち朝食、50サラド、エピックキッチェン、egtea gaze+に関する広範な実験を行い、提案手法は最先端の手法に匹敵する結果を得ることができ、行動予測のための生成的アプローチの有効性を示す。
コードとトレーニングされたモデルはGitHubで公開される予定です。
関連論文リスト
- From Recognition to Prediction: Leveraging Sequence Reasoning for Action Anticipation [30.161471749050833]
本稿では,ARR(Accence and Reasoning, 認識・推論)と呼ばれる注意機構を利用した新しいエンドツーエンドビデオモデリングアーキテクチャを提案する。
ARRは行動予測タスクを行動認識と推論タスクに分解し、次の行動予測(NAP)によって行動間の統計的関係を効果的に学習する。
さらに、広範囲なトレーニングデータを必要とする関係モデリングの課題に対処するために、デコーダの教師なし事前学習のための革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-05T18:38:29Z) - Gated Temporal Diffusion for Stochastic Long-Term Dense Anticipation [17.4088244981231]
長期的な行動予測は、自律運転や人間とロボットの相互作用など、多くのアプリケーションにとって重要な課題となっている。
本稿では,Gated Temporal Diffusion (GTD) ネットワークを提案する。
我々のモデルは、Breakfast、Ambly101、50Saladsの両方の決定論的設定で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-07-16T17:48:05Z) - Inductive Attention for Video Action Anticipation [16.240254363118016]
我々は、現在の予測を将来の行動を予測するクエリとして活用する、IAMと呼ばれるインダクティブアテンションモデルを提案する。
提案手法は,複数の大規模エゴセントリックビデオデータセット上での最先端の予測モデルより一貫して優れている。
論文 参考訳(メタデータ) (2022-12-17T09:51:17Z) - Finding Islands of Predictability in Action Forecasting [7.215559809521136]
将来のアクションシーケンスは1つの抽象化レベルではなく、変数でより正確にモデル化されていることを示す。
本稿では,ベイズニューラルネットワークと階層的畳み込みセグメンテーションモデルを組み合わせて,将来の行動を正確に予測し,抽象化レベルを最適に選択する手法を提案する。
論文 参考訳(メタデータ) (2022-10-13T21:01:16Z) - Weakly-supervised Action Transition Learning for Stochastic Human Motion
Prediction [81.94175022575966]
動作駆動型人間の動作予測の課題について紹介する。
一連の動作ラベルと短い動作履歴から、複数の可算な将来の動作を予測することを目的としている。
論文 参考訳(メタデータ) (2022-05-31T08:38:07Z) - Future Transformer for Long-term Action Anticipation [33.771374384674836]
我々はFuture Transformer(FUTR)と呼ばれる行動予測のためのエンドツーエンドの注意モデルを提案する。
従来の自己回帰モデルとは異なり、提案手法は並列復号法において将来の動作のシーケンス全体を予測することを学習する。
本手法は,Breakfastと50 Saladsの2つの標準ベンチマークで評価し,最先端の結果を得た。
論文 参考訳(メタデータ) (2022-05-27T14:47:43Z) - The Wisdom of Crowds: Temporal Progressive Attention for Early Action
Prediction [104.628661890361]
初期のアクション予測は、部分的に観察されたビデオから進行中のアクションを推測する。
本稿では,細粒度から粗粒度へのプログレッシブサンプリングにより,行動の進化を捉えたボトルネックに基づくアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-04-28T08:21:09Z) - You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory
Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。
そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。
本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T14:24:15Z) - LookOut: Diverse Multi-Future Prediction and Planning for Self-Driving [139.33800431159446]
LookOutは、環境を共同で知覚し、センサーデータから様々な未来を予測するアプローチである。
本モデルでは,大規模自動運転データセットにおいて,より多様性があり,サンプル効率のよい動き予測を行う。
論文 参考訳(メタデータ) (2021-01-16T23:19:22Z) - Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文 参考訳(メタデータ) (2021-01-13T08:04:10Z) - Long-Term Anticipation of Activities with Cycle Consistency [90.79357258104417]
本稿では,観察されたフレームの特徴から直接将来の活動を予測し,エンドツーエンドで学習するフレームワークを提案する。
我々のフレームワークは、Breakfastデータセットと50Saladsという2つのデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-02T15:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。