論文の概要: EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations
- arxiv url: http://arxiv.org/abs/2510.00405v1
- Date: Wed, 01 Oct 2025 01:30:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.323758
- Title: EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations
- Title(参考訳): EgoTraj-Bench:Ego-viewノイズ観測によるロバスト軌道予測に向けて
- Authors: Jiayi Liu, Jiaming Zhou, Ke Ye, Kun-Yu Lin, Allan Wang, Junwei Liang,
- Abstract要約: 我々はEgoTraj-Benchを紹介した。EgoTraj-Benchは、ノイズの多い、一対一の視覚履歴を、クリーンで鳥の目に見える将来の軌跡に根拠付ける最初の実世界のベンチマークだ。
本稿では,バイフローモデルを提案する。バイフローは,過去の観測と将来の動きの予測を同時に行う。
BiFlowは最先端のパフォーマンスを実現し、minADEとminFDEを平均で10~15%削減し、優れた堅牢性を示す。
- 参考スコア(独自算出の注目度): 28.981146701183448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable trajectory prediction from an ego-centric perspective is crucial for robotic navigation in human-centric environments. However, existing methods typically assume idealized observation histories, failing to account for the perceptual artifacts inherent in first-person vision, such as occlusions, ID switches, and tracking drift. This discrepancy between training assumptions and deployment reality severely limits model robustness. To bridge this gap, we introduce EgoTraj-Bench, the first real-world benchmark that grounds noisy, first-person visual histories in clean, bird's-eye-view future trajectories, enabling robust learning under realistic perceptual constraints. Building on this benchmark, we propose BiFlow, a dual-stream flow matching model that concurrently denoises historical observations and forecasts future motion by leveraging a shared latent representation. To better model agent intent, BiFlow incorporates our EgoAnchor mechanism, which conditions the prediction decoder on distilled historical features via feature modulation. Extensive experiments show that BiFlow achieves state-of-the-art performance, reducing minADE and minFDE by 10-15% on average and demonstrating superior robustness. We anticipate that our benchmark and model will provide a critical foundation for developing trajectory forecasting systems truly resilient to the challenges of real-world, ego-centric perception.
- Abstract(参考訳): エゴ中心の観点からの信頼性の高い軌道予測は、人間中心環境におけるロボットナビゲーションに不可欠である。
しかし、既存の手法では、典型的には理想化された観察履歴を仮定し、オクルージョン、IDスイッチ、追跡ドリフトといったファーストパーソナライズドビジョンに固有の知覚的アーティファクトを説明できない。
トレーニングの前提とデプロイメントの現実との間のこの相違は、モデルの堅牢性を著しく制限します。
このギャップを埋めるために、私たちはEgoTraj-Benchという最初の実世界のベンチマークを紹介します。
このベンチマークに基づいて,2重流れのフローマッチングモデルであるBiFlowを提案する。
エージェントの意図をモデル化するために、BiFlowにはEgoAnchorメカニズムが組み込まれています。
大規模な実験により、BiFlowは最先端のパフォーマンスを実現し、minADEとminFDEを平均で10~15%削減し、優れた堅牢性を示した。
我々は、我々のベンチマークとモデルが、実世界のエゴ中心の認識の課題に真に耐性のある軌道予測システムを開発するための重要な基盤となることを期待する。
関連論文リスト
- Ego-centric Predictive Model Conditioned on Hand Trajectories [52.531681772560724]
自我中心のシナリオでは、次の行動とその視覚的結果の両方を予測することは、人間と物体の相互作用を理解するために不可欠である。
我々は,エゴセントリックなシナリオにおける行動と視覚的未来を共同でモデル化する,統合された2段階予測フレームワークを提案する。
我々のアプローチは、エゴセントリックな人間の活動理解とロボット操作の両方を扱うために設計された最初の統一モデルである。
論文 参考訳(メタデータ) (2025-08-27T13:09:55Z) - BEVWorld: A Multimodal World Simulator for Autonomous Driving via Scene-Level BEV Latents [56.33989853438012]
BEVWorldは,マルチモーダルセンサ入力を統一的でコンパクトなBird's Eye View潜在空間に変換し,全体的環境モデリングを行うフレームワークである。
提案する世界モデルは,多モードトークン化器と遅延BEVシーケンス拡散モデルという2つの主要成分から構成される。
論文 参考訳(メタデータ) (2024-07-08T07:26:08Z) - AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。
我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。
提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文 参考訳(メタデータ) (2024-07-01T16:32:15Z) - Vectorized Representation Dreamer (VRD): Dreaming-Assisted Multi-Agent Motion-Forecasting [2.2020053359163305]
マルチエージェント動作予測問題に対するベクトル化された世界モデルに基づくアプローチであるVRDを紹介する。
本手法では,従来のオープンループトレーニングシステムと,新しい夢のクローズループトレーニングパイプラインを組み合わせる。
本モデルでは,1つの予測ミスレート測定値に対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-20T15:34:17Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。
LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。
この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - Self-Supervised Bird's Eye View Motion Prediction with Cross-Modality
Signals [38.20643428486824]
密集した鳥の視線(BEV)の動きを自己監督的に学習することは、ロボット工学と自律運転の新たな研究である。
現在の自己監督法は主に点雲間の点対応に依存する。
マルチモダリティデータを活用することで,これらの問題に効果的に対処する,新たなクロスモダリティ自己教師型トレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-01-21T14:09:49Z) - Learning Robust Representations via Bidirectional Transition for Visual Reinforcement Learning [49.23256535551141]
本稿では, 環境遷移を前方と後方の両方で双方向に予測し, 信頼性のある表現を抽出するBidirectional Transition (BiT) モデルを提案する。
本モデルでは,DeepMind Controlスイートの2つの設定に対して,競合一般化性能とサンプル効率を示す。
論文 参考訳(メタデータ) (2023-12-04T14:19:36Z) - Smooth-Trajectron++: Augmenting the Trajectron++ behaviour prediction
model with smooth attention [0.0]
本研究では,注目モジュールにスムーズな項を組み込んだトラジェクトリ予測モデルであるTrjectron++について検討する。
この注意機構は、注意切り替えの限界を示す認知科学の研究にインスパイアされた人間の注意を模倣する。
得られたSmooth-Trajectron++モデルの性能を評価し、様々なベンチマークで元のモデルと比較する。
論文 参考訳(メタデータ) (2023-05-31T09:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。