論文の概要: EgoMoD: Predicting Global Maps of Dynamics from Local Egocentric Observations
- arxiv url: http://arxiv.org/abs/2603.00167v1
- Date: Thu, 26 Feb 2026 09:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 05:02:54.065065
- Title: EgoMoD: Predicting Global Maps of Dynamics from Local Egocentric Observations
- Title(参考訳): EgoMoD:局所的なエゴ中心観測からダイナミクスのグローバルマップを予測する
- Authors: Iacopo Catalano, David Morilla-Cabello, Jorge Pena-Queralta, Eduardo Montijano,
- Abstract要約: Maps of Dynamics (MoDs) は、長期のグローバルプランニングに有用な空間における動き傾向の構造化された表現を提供する。
EgoMoDは,ロボット操作中に収集した短い自我中心のビデオクリップから直接,未来のMoDを予測するための最初のアプローチである。
本手法は,外部観測から学習したMoDを用いて学習した映像とポーズ条件のアーキテクチャを用いて,局所的な動的キューから環境全体の動き傾向を推定する。
- 参考スコア(独自算出の注目度): 3.5831173106587393
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Efficient navigation in dynamic environments requires anticipating how motion patterns evolve beyond the robot's immediate perceptual range, enabling preemptive rather than purely reactive planning in crowded scenes. Maps of Dynamics (MoDs) offer a structured representation of motion tendencies in space useful for long-term global planning, but constructing them traditionally requires global environment observations over extended periods of time. We introduce EgoMoD, the first approach that learns to predict future MoDs directly from short egocentric video clips collected during robot operation. Our method learns to infer environment-wide motion tendencies from local dynamic cues using a video- and pose-conditioned architecture trained with MoDs computed from external observations as privileged supervision, allowing local observations to serve as predictive signals of global motion structure. Thanks to this, we offer the capacity to forecast future motion dynamics over the whole environment rather than merely extend past patterns in the robot's field of view. Experiments in large simulated environments show that EgoMoD accurately predicts future MoDs under limited observability, while evaluation with real images showcases its zero-shot transferability to real systems.
- Abstract(参考訳): 動的環境における効率的なナビゲーションには、ロボットの直近の知覚範囲を超えて動きパターンがどのように進化するかを予測する必要がある。
マップ・オブ・ダイナミクス(MoD)は、長期のグローバルプランニングに役立つ空間における動きの傾向を構造化した表現を提供するが、伝統的には長期にわたって地球環境の観測を必要とする。
EgoMoDは,ロボット操作中に収集した短い自我中心のビデオクリップから直接,未来のMoDを予測するための最初のアプローチである。
本手法は,外部観測から学習したMoDを用いて訓練した映像およびポーズ条件のアーキテクチャを用いて,局所的な動特性から環境ワイドな動き傾向を推定し,局所的な観測をグローバルな運動構造の予測信号として利用できるようにする。
これにより、ロボットの視野における過去のパターンを単に拡張するのではなく、環境全体にわたる将来の動きのダイナミクスを予測する能力を提供する。
大規模なシミュレーション環境での実験では、EgoMoDは観測可能性に制限のある将来のMoDを正確に予測し、実際の画像による評価は実際のシステムへのゼロショット転送性を示す。
関連論文リスト
- ResWorld: Temporal Residual World Model for End-to-End Autonomous Driving [40.28153843744977]
動的オブジェクトモデリングに焦点を当てた時間的残留世界モデル(TR-World)を提案する。
シーン表現の時間的残差を計算することにより、動的対象の情報を検出・追跡に頼ることなく抽出することができる。
また,FGTR(Future-Guided Trajectory Refinement)モジュールも提案する。
論文 参考訳(メタデータ) (2026-02-11T14:12:26Z) - Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。
本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。
シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文 参考訳(メタデータ) (2026-01-29T17:07:43Z) - Walk through Paintings: Egocentric World Models from Internet Priors [65.30611174953958]
本稿では,エゴセントリック・ワールド・モデル(EgoWM)について述べる。
我々は、スクラッチからトレーニングするよりも、インターネット規模のビデオモデルのリッチワールドを再利用し、軽量なコンディショニング層を通じてモーターコマンドを注入する。
当社のアプローチは,3-DoF移動ロボットから25-DoFヒューマノイドまで,エボディメントやアクションスペースを自然に拡張する。
論文 参考訳(メタデータ) (2026-01-21T18:59:32Z) - Back to the Features: DINO as a Foundation for Video World Models [29.116268020812072]
我々は、DINOv2の潜在空間における将来のフレームを予測するために訓練された、強力なジェネラリストビデオワールドモデルであるDINO-worldを紹介する。
トレーニング済みの画像エンコーダを活用して、大規模未処理ビデオデータセット上で将来の予測器をトレーニングすることにより、DINO-worldは多様なシーンの時間的ダイナミクスを学習する。
論文 参考訳(メタデータ) (2025-07-25T17:54:10Z) - Dfferentiable Raycasting for Self-supervised Occupancy Forecasting [52.61762537741392]
自動運転のための運動計画では、エゴ車の周囲の環境が時間とともにどのように進化するかを学ぶ必要がある。
本稿では,自由空間のようなビュー依存表現の自然な代替手段として,幾何学的占有を用いる。
私たちの重要な洞察は、差別化可能なレイキャストを使用して、将来の占有率予測を、将来のLiDARスイープ予測に"レンダリング"することです。
論文 参考訳(メタデータ) (2022-10-04T21:35:21Z) - Motion Transformer with Global Intention Localization and Local Movement
Refinement [103.75625476231401]
動き TRansformer (MTR) は、大域的意図の局所化と局所的な動きの洗練の合同最適化として、動き予測をモデル化する。
MTRは、限界運動予測と関節運動予測の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2022-09-27T16:23:14Z) - Predicting Future Occupancy Grids in Dynamic Environment with
Spatio-Temporal Learning [63.25627328308978]
本稿では,将来の占有予測を生成するための時間的予測ネットワークパイプラインを提案する。
現在のSOTAと比較して、我々の手法は3秒の長い水平線での占有を予測している。
我々は、さらなる研究を支援するために、nulisに基づくグリッド占有データセットを公開します。
論文 参考訳(メタデータ) (2022-05-06T13:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。