論文の概要: Gated Temporal Diffusion for Stochastic Long-Term Dense Anticipation
- arxiv url: http://arxiv.org/abs/2407.11954v1
- Date: Tue, 16 Jul 2024 17:48:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 13:34:07.224952
- Title: Gated Temporal Diffusion for Stochastic Long-Term Dense Anticipation
- Title(参考訳): 確率的長期予測のためのゲート付き時空間拡散法
- Authors: Olga Zatsarynna, Emad Bahrami, Yazan Abu Farha, Gianpiero Francesca, Juergen Gall,
- Abstract要約: 長期的な行動予測は、自律運転や人間とロボットの相互作用など、多くのアプリケーションにとって重要な課題となっている。
本稿では,Gated Temporal Diffusion (GTD) ネットワークを提案する。
我々のモデルは、Breakfast、Ambly101、50Saladsの両方の決定論的設定で、最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 17.4088244981231
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term action anticipation has become an important task for many applications such as autonomous driving and human-robot interaction. Unlike short-term anticipation, predicting more actions into the future imposes a real challenge with the increasing uncertainty in longer horizons. While there has been a significant progress in predicting more actions into the future, most of the proposed methods address the task in a deterministic setup and ignore the underlying uncertainty. In this paper, we propose a novel Gated Temporal Diffusion (GTD) network that models the uncertainty of both the observation and the future predictions. As generator, we introduce a Gated Anticipation Network (GTAN) to model both observed and unobserved frames of a video in a mutual representation. On the one hand, using a mutual representation for past and future allows us to jointly model ambiguities in the observation and future, while on the other hand GTAN can by design treat the observed and unobserved parts differently and steer the information flow between them. Our model achieves state-of-the-art results on the Breakfast, Assembly101 and 50Salads datasets in both stochastic and deterministic settings. Code: https://github.com/olga-zats/GTDA .
- Abstract(参考訳): 長期的な行動予測は、自律運転や人間とロボットの相互作用など、多くのアプリケーションにとって重要な課題となっている。
短期的な予測とは異なり、将来へのより多くの行動を予測することは、より長い地平線における不確実性の増加に真の課題を課す。
将来的なアクションの予測には大きな進歩があったが、提案手法のほとんどは決定論的設定でタスクに対処し、基礎となる不確実性を無視している。
本稿では,Gated Temporal Diffusion(GTD)ネットワークを提案する。
本稿では,GTAN (Gated Precipation Network) を導入し,ビデオの観測フレームと観測されていないフレームの両方を相互表現でモデル化する。
一方,過去と未来における相互表現を用いることで,観測と未来におけるあいまいさを共同でモデル化することができる一方,GTANは観測と観測されていない部分を異なる方法で処理し,それらの間の情報の流れを制御できる。
我々のモデルはBreakfast, Assembly101, 50Saladsのデータセットを確率的および決定論的設定の両方で最新結果を達成する。
コード:https://github.com/olga-zats/GTDA。
関連論文リスト
- Multi-Agent Trajectory Prediction with Difficulty-Guided Feature Enhancement Network [1.5888246742280365]
軌道予測は、交通参加者の将来の動きを予測することを目的として、自動運転に不可欠である。
伝統的な方法は通常、エージェントの軌道に関する全体論的推論を行い、エージェント間の難易度の違いを無視する。
本稿では,エージェント間の予測難易度差を利用した,DGFNet(DifficultyGuided Feature Enhancement)を提案する。
論文 参考訳(メタデータ) (2024-07-26T07:04:30Z) - FIMP: Future Interaction Modeling for Multi-Agent Motion Prediction [18.10147252674138]
動作予測(FIMP)のための未来のインタラクションモデリングを提案し,その将来的なインタラクションをエンドツーエンドで捉える。
実験により,今後のインタラクションモデリングにより性能が著しく向上し,Argoverseモーション予測ベンチマークの性能が向上することが示された。
論文 参考訳(メタデータ) (2024-01-29T14:41:55Z) - DiffAnt: Diffusion Models for Action Anticipation [12.022815981853071]
将来の行動を予測することは本質的に不確実である。現在進行中の行動を含む観察ビデオセグメントを考えると、複数の行動が確実に続く可能性がある。
本研究では, 予測行動の予測を生成的視点から再考し, 拡散モデルを用いて, 様々な将来的行動の予測を行う。
コードとトレーニングされたモデルはGitHubで公開される予定です。
論文 参考訳(メタデータ) (2023-11-27T16:40:09Z) - Inductive Attention for Video Action Anticipation [16.240254363118016]
我々は、現在の予測を将来の行動を予測するクエリとして活用する、IAMと呼ばれるインダクティブアテンションモデルを提案する。
提案手法は,複数の大規模エゴセントリックビデオデータセット上での最先端の予測モデルより一貫して優れている。
論文 参考訳(メタデータ) (2022-12-17T09:51:17Z) - Future Transformer for Long-term Action Anticipation [33.771374384674836]
我々はFuture Transformer(FUTR)と呼ばれる行動予測のためのエンドツーエンドの注意モデルを提案する。
従来の自己回帰モデルとは異なり、提案手法は並列復号法において将来の動作のシーケンス全体を予測することを学習する。
本手法は,Breakfastと50 Saladsの2つの標準ベンチマークで評価し,最先端の結果を得た。
論文 参考訳(メタデータ) (2022-05-27T14:47:43Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Dyadic Human Motion Prediction [119.3376964777803]
本稿では,2つの被験者の相互作用を明示的に推論する動き予測フレームワークを提案する。
具体的には,2つの被験者の運動履歴の相互依存をモデル化する一対の注意機構を導入する。
これにより、より現実的な方法で長期の運動力学を保ち、異常かつ高速な運動を予測することができる。
論文 参考訳(メタデータ) (2021-12-01T10:30:40Z) - Long Term Motion Prediction Using Keyposes [122.22758311506588]
長期的な予測を達成するには、瞬時に人間のポーズを予測する必要があると論じている。
このようなポーズを「キーポス」と呼び、後続のキーポスを線形に補間して近似する複素運動と呼ぶ。
このようなキープレースのシーケンスを学習することで,将来的には最大5秒まで,非常に長期にわたる動作を予測できることが示される。
論文 参考訳(メタデータ) (2020-12-08T20:45:51Z) - From Goals, Waypoints & Paths To Long Term Human Trajectory Forecasting [54.273455592965355]
将来の軌道の不確実性は、(a)エージェントに知られているが、モデルに未知な情報源、例えば長期目標や(b)エージェントとモデルの両方に未知な情報源、例えば他のエージェントの意図や既約乱数不確定性などである。
我々は,長期目標における多モータリティと,経路ポイントや経路における多モータリティによるアレタリック不確実性を通じて,てんかん不確かさをモデル化する。
また,この二分法を実証するために,従来の作業よりも1分間,桁長の予測地平線を有する,新しい長期軌跡予測設定を提案する。
論文 参考訳(メタデータ) (2020-12-02T21:01:29Z) - Adversarial Generative Grammars for Human Activity Prediction [141.43526239537502]
将来予測のための逆生成文法モデルを提案する。
私たちの文法は、データ分散から生産ルールを学習できるように設計されています。
推論中に複数の生産ルールを選択することができると、予測される結果が異なる。
論文 参考訳(メタデータ) (2020-08-11T17:47:53Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。