論文の概要: MANTA: Diffusion Mamba for Efficient and Effective Stochastic Long-Term Dense Anticipation
- arxiv url: http://arxiv.org/abs/2501.08837v2
- Date: Fri, 21 Mar 2025 17:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 15:40:09.916422
- Title: MANTA: Diffusion Mamba for Efficient and Effective Stochastic Long-Term Dense Anticipation
- Title(参考訳): manta: 効率的な確率的長期予測のための拡散マンバ
- Authors: Olga Zatsarynna, Emad Bahrami, Yazan Abu Farha, Gianpiero Francesca, Juergen Gall,
- Abstract要約: 長期にわたる高密度な行動予測は、行動の予測と、その持続期間を未来まで数分間待つ必要があるため、困難である。
本稿では, 効果的長期時間モデリングを実現するため, MANTA (MAmba for ANTicipation) ネットワークを提案する。
当社のアプローチでは,Breakfast,50Salads,Ambly101という3つのデータセットに対して,最先端の結果を実現しています。
- 参考スコア(独自算出の注目度): 17.4088244981231
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term dense action anticipation is very challenging since it requires predicting actions and their durations several minutes into the future based on provided video observations. To model the uncertainty of future outcomes, stochastic models predict several potential future action sequences for the same observation. Recent work has further proposed to incorporate uncertainty modelling for observed frames by simultaneously predicting per-frame past and future actions in a unified manner. While such joint modelling of actions is beneficial, it requires long-range temporal capabilities to connect events across distant past and future time points. However, the previous work struggles to achieve such a long-range understanding due to its limited and/or sparse receptive field. To alleviate this issue, we propose a novel MANTA (MAmba for ANTicipation) network. Our model enables effective long-term temporal modelling even for very long sequences while maintaining linear complexity in sequence length. We demonstrate that our approach achieves state-of-the-art results on three datasets - Breakfast, 50Salads, and Assembly101 - while also significantly improving computational and memory efficiency. Our code is available at https://github.com/olga-zats/DIFF_MANTA .
- Abstract(参考訳): 提供されたビデオ観測に基づいて、アクションとその持続時間を数分間未来まで予測する必要があるため、長期にわたる高密度なアクション予測は非常に難しい。
将来の結果の不確実性をモデル化するために、確率的モデルは、同じ観測のためにいくつかの潜在的な未来のアクションシーケンスを予測する。
近年の研究では、フレームごとの過去の動作と将来の動作を統一的に予測することで、観測フレームの不確実性モデリングを組み込むことが提案されている。
このようなアクションの合同モデリングは有用であるが、遠くの過去と将来の時間点をまたいでイベントを接続するためには、長期の時間的能力が必要である。
しかし、それまでの作業は、制限された/またはまばらな受容領域のため、このような長い範囲の理解を達成するのに苦労している。
この問題を軽減するために,我々は新しいMANTA(MAmba for ANTicipation)ネットワークを提案する。
本モデルでは, 配列長の線形複雑度を維持しつつ, 非常に長いシーケンスであっても, 効果的な長期時間モデリングが可能となる。
我々は、Breakfast、50Salads、Ambly101という3つのデータセットで最先端の結果を得ると同時に、計算とメモリ効率を大幅に改善する。
私たちのコードはhttps://github.com/olga-zats/DIFF_MANTAで利用可能です。
関連論文リスト
- Breaking the Context Bottleneck on Long Time Series Forecasting [6.36010639533526]
長期の時系列予測は、経済、エネルギー、輸送における計画と意思決定に不可欠である。
最近の進歩によりこれらのモデルの効率は向上したが、より長いシーケンスを効果的に活用することの難しさは持続している。
長いシーケンスの効率的かつ効率的な処理を実現するために,Logsparse Decomposable Multiscaling (LDM) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-21T10:29:34Z) - TimeBridge: Non-Stationarity Matters for Long-term Time Series Forecasting [49.6208017412376]
TimeBridgeは、非定常性と依存性モデリングの間のギャップを埋めるために設計された新しいフレームワークである。
TimeBridgeは、短期予測と長期予測の両方において、最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2024-10-06T10:41:03Z) - Oscillatory State-Space Models [61.923849241099184]
長いシーケンスを効率的に学習するための線形状態空間モデル(LinOSS)を提案する。
高速な連想並列スキャンを用いて時間とともに統合された安定な離散化により、提案した状態空間モデルが得られる。
我々はLinOSSが普遍であること、すなわち時間変化関数間の連続および因果作用素写像を近似できることを示す。
論文 参考訳(メタデータ) (2024-10-04T22:00:13Z) - Multiscale Representation Enhanced Temporal Flow Fusion Model for Long-Term Workload Forecasting [19.426131129034115]
本稿では,自己指導型マルチスケール表現学習を利用して,長期および短期のワークロードパターンを抽出する新しいフレームワークを提案する。
長期履歴はマルチスケール表現によって符号化され、短期観測は時流融合によってモデル化される。
論文 参考訳(メタデータ) (2024-07-29T04:42:18Z) - Gated Temporal Diffusion for Stochastic Long-Term Dense Anticipation [17.4088244981231]
長期的な行動予測は、自律運転や人間とロボットの相互作用など、多くのアプリケーションにとって重要な課題となっている。
本稿では,Gated Temporal Diffusion (GTD) ネットワークを提案する。
我々のモデルは、Breakfast、Ambly101、50Saladsの両方の決定論的設定で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-07-16T17:48:05Z) - Self-Supervised Contrastive Learning for Long-term Forecasting [41.11757636744812]
長期予測は、時間とメモリの複雑さによる固有の課題を示す。
スライドウィンドウに頼って長いシーケンスを処理している既存の手法は、長期の変動を効果的に捉えるのに苦労している。
コントラスト学習と拡張分解アーキテクチャを用いて,この制限を克服する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-03T04:32:34Z) - Explainable Parallel RCNN with Novel Feature Representation for Time
Series Forecasting [0.0]
時系列予測はデータサイエンスにおける根本的な課題である。
RNNとCNNを組み合わせた並列ディープラーニングフレームワークを開発した。
3つのデータセットに対する大規模な実験により,本手法の有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-05-08T17:20:13Z) - Generative Time Series Forecasting with Diffusion, Denoise, and
Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。
実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。
本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2023-01-08T12:20:46Z) - FiLM: Frequency improved Legendre Memory Model for Long-term Time Series
Forecasting [22.821606402558707]
textbfFrequency textbfimproved textbfLegendre textbfMemory model(bf FiLM)を開発した。
実験により,提案したFiLMは最先端モデルの精度を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-05-18T12:37:54Z) - Long Term Motion Prediction Using Keyposes [122.22758311506588]
長期的な予測を達成するには、瞬時に人間のポーズを予測する必要があると論じている。
このようなポーズを「キーポス」と呼び、後続のキーポスを線形に補間して近似する複素運動と呼ぶ。
このようなキープレースのシーケンスを学習することで,将来的には最大5秒まで,非常に長期にわたる動作を予測できることが示される。
論文 参考訳(メタデータ) (2020-12-08T20:45:51Z) - From Goals, Waypoints & Paths To Long Term Human Trajectory Forecasting [54.273455592965355]
将来の軌道の不確実性は、(a)エージェントに知られているが、モデルに未知な情報源、例えば長期目標や(b)エージェントとモデルの両方に未知な情報源、例えば他のエージェントの意図や既約乱数不確定性などである。
我々は,長期目標における多モータリティと,経路ポイントや経路における多モータリティによるアレタリック不確実性を通じて,てんかん不確かさをモデル化する。
また,この二分法を実証するために,従来の作業よりも1分間,桁長の予測地平線を有する,新しい長期軌跡予測設定を提案する。
論文 参考訳(メタデータ) (2020-12-02T21:01:29Z) - History Repeats Itself: Human Motion Prediction via Motion Attention [81.94175022575966]
注意に基づくフィードフォワードネットワークを導入し、人間の動きが自分自身を繰り返す傾向にあるという観察を明示的に活用する。
特に,現在動きのコンテキストと過去の動きのサブシーケンスの類似性を捉えるために,動きの注意を抽出することを提案する。
我々は,Human3.6M,AMASS,3DPWを用いて,周期的および非周期的両方の行動に対するアプローチの利点を実証した。
論文 参考訳(メタデータ) (2020-07-23T02:12:27Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。