論文の概要: Bidirectional Progressive Transformer for Interaction Intention Anticipation
- arxiv url: http://arxiv.org/abs/2405.05552v1
- Date: Thu, 9 May 2024 05:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 14:12:43.919832
- Title: Bidirectional Progressive Transformer for Interaction Intention Anticipation
- Title(参考訳): 相互作用意図予測のための双方向プログレッシブトランス
- Authors: Zichen Zhang, Hongchen Luo, Wei Zhai, Yang Cao, Yu Kang,
- Abstract要約: 双方向進行機構を相互作用意図の予測に導入する。
トラジェクトリユニットとC-VAEを用いて、トラジェクトリや相互作用ホットスポットに適切な不確実性を導入する。
提案手法は,3つのベンチマークデータセットの最先端結果を実現する。
- 参考スコア(独自算出の注目度): 20.53329698350243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interaction intention anticipation aims to jointly predict future hand trajectories and interaction hotspots. Existing research often treated trajectory forecasting and interaction hotspots prediction as separate tasks or solely considered the impact of trajectories on interaction hotspots, which led to the accumulation of prediction errors over time. However, a deeper inherent connection exists between hand trajectories and interaction hotspots, which allows for continuous mutual correction between them. Building upon this relationship, a novel Bidirectional prOgressive Transformer (BOT), which introduces a Bidirectional Progressive mechanism into the anticipation of interaction intention is established. Initially, BOT maximizes the utilization of spatial information from the last observation frame through the Spatial-Temporal Reconstruction Module, mitigating conflicts arising from changes of view in first-person videos. Subsequently, based on two independent prediction branches, a Bidirectional Progressive Enhancement Module is introduced to mutually improve the prediction of hand trajectories and interaction hotspots over time to minimize error accumulation. Finally, acknowledging the intrinsic randomness in human natural behavior, we employ a Trajectory Stochastic Unit and a C-VAE to introduce appropriate uncertainty to trajectories and interaction hotspots, respectively. Our method achieves state-of-the-art results on three benchmark datasets Epic-Kitchens-100, EGO4D, and EGTEA Gaze+, demonstrating superior in complex scenarios.
- Abstract(参考訳): 相互作用意図予測は、将来のハンドトラジェクトリと相互作用ホットスポットを共同で予測することを目的としている。
既存の研究はしばしば、軌道予測と相互作用ホットスポット予測を別のタスクとして扱うか、単に軌道が相互作用ホットスポットに与える影響を考慮し、時間の経過とともに予測エラーが蓄積された。
しかし、ハンドトラジェクトリーと相互作用ホットスポットの間には深い固有のつながりがあり、両者の相互修正を連続的に行うことができる。
この関係を基盤として、双方向プログレッシブ・トランスフォーマー(BOT)が確立され、双方向プログレッシブ・メカニズムが相互作用意図の予測に導入される。
当初、BOTは、最初の観察フレームから空間-時間再構成モジュールを通して空間情報の利用を最大化し、一対一のビデオにおける視界の変化による衝突を軽減した。
その後、2つの独立した予測分岐に基づいて、双方向プログレッシブ・エンハンスメント・モジュールを導入し、エラー蓄積を最小限に抑えるために、時間とともにハンドトラジェクトリと相互作用ホットスポットの予測を相互に改善する。
最後に, 自然行動における本質的ランダム性を認め, トラジェクトリ確率単位とC-VAEを用いて, トラジェクトリと相互作用ホットスポットにそれぞれ適切な不確実性を導入する。
提案手法は,Epic-Kitchens-100, EGO4D, EGTEA Gaze+の3つのベンチマークデータセットに対して, 複雑なシナリオにおいて優れていることを示す。
関連論文リスト
- AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - SSL-Interactions: Pretext Tasks for Interactive Trajectory Prediction [4.286256266868156]
トラジェクティブ予測のためのインタラクションモデリングを強化するために,プリテキストタスクを提案するSSL-Interactionsを提案する。
エージェントインタラクションの様々な側面をカプセル化する4つの対話対応プレテキストタスクを導入する。
また,データセットからインタラクション重大シナリオをキュレートする手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T14:43:40Z) - PPAD: Iterative Interactions of Prediction and Planning for End-to-end Autonomous Driving [57.89801036693292]
PPAD(Iterative Interaction of Prediction and Planning Autonomous Driving)は、予測と計画のより良い統合を目的とした、タイムステップワイドなインタラクションである。
我々は,階層的動的キーオブジェクトに着目したego-to-agent,ego-to-map,ego-to-BEVインタラクション機構を設計し,インタラクションをモデル化する。
論文 参考訳(メタデータ) (2023-11-14T11:53:24Z) - FFINet: Future Feedback Interaction Network for Motion Forecasting [46.247396728154904]
本稿では、軌道予測のための現在の観測と潜在的な未来の相互作用を集約する、新しいFuture Feedback Interaction Network(FFINet)を提案する。
我々のFFINetはArgoverse 1とArgoverse 2の動作予測ベンチマークの最先端性能を実現している。
論文 参考訳(メタデータ) (2023-11-08T07:57:29Z) - A Hierarchical Hybrid Learning Framework for Multi-agent Trajectory
Prediction [4.181632607997678]
深層学習(DL)と強化学習(RL)の階層的ハイブリッドフレームワークを提案する。
DLの段階では、トラフィックシーンは、トランスフォーマースタイルのGNNが異種相互作用を符号化するために採用される複数の中間スケールの異種グラフに分割される。
RLの段階では、DLの段階で予測される重要な将来点を利用して、交通シーンを局所的なサブシーンに分割する。
論文 参考訳(メタデータ) (2023-03-22T02:47:42Z) - ProspectNet: Weighted Conditional Attention for Future Interaction
Modeling in Behavior Prediction [5.520507323174275]
本稿では,車両行動の連立学習と連立学習の逐次学習過程として,エンドツーエンドの連立予測問題を定式化する。
本稿では,対話型エージェントペア間の相互影響をモデル化するために,重み付けされた注目スコアを用いた共同学習ブロックであるProspectNetを提案する。
ProspectNetは2つの限界予測のCartesian製品よりも優れており、Interactive Motion Predictionベンチマークで同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-08-29T19:29:49Z) - SGCN:Sparse Graph Convolution Network for Pedestrian Trajectory
Prediction [64.16212996247943]
歩行者軌道予測のためのスパースグラフ畳み込みネットワーク(SGCN)を提案する。
具体的には、SGCNはスパース指向の相互作用をスパース指向の空間グラフと明確にモデル化し、適応的な相互作用歩行者を捉える。
可視化は,歩行者の適応的相互作用とその運動特性を捉えることができることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:17:42Z) - End-to-end Contextual Perception and Prediction with Interaction
Transformer [79.14001602890417]
我々は3次元物体の検出と将来の動きを自動運転の文脈で予測する問題に取り組む。
空間的・時間的依存関係を捉えるために,新しいトランスフォーマーアーキテクチャを用いたリカレントニューラルネットワークを提案する。
私たちのモデルはエンドツーエンドでトレーニングでき、リアルタイムで実行されます。
論文 参考訳(メタデータ) (2020-08-13T14:30:12Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。