Fugu-MT 論文翻訳(概要): COME: Adding Scene-Centric Forecasting Control to Occupancy World Model

論文の概要: COME: Adding Scene-Centric Forecasting Control to Occupancy World Model

arxiv url: http://arxiv.org/abs/2506.13260v1
Date: Mon, 16 Jun 2025 09:01:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:47.897922
Title: COME: Adding Scene-Centric Forecasting Control to Occupancy World Model
Title（参考訳）: COME:Scene-Centric Forecasting ControlをOccupancy World Modelに追加
Authors: Yining Shi, Kun Jiang, Qiang Meng, Ke Wang, Jiabao Wang, Wenchao Sun, Tuopu Wen, Mengmeng Yang, Diange Yang,
Abstract要約: 世界モデルは、環境力学をシミュレートし、合成データを生成する自律運転にとって重要である。既存の方法では、エゴ車の動きを乱すのに苦労している(シーンの進化から振り返る) 本研究では,シーン中心の座標系を利用して環境変化をエゴ運動から分離することを提案する。
参考スコア（独自算出の注目度）: 18.815436110557112
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: World models are critical for autonomous driving to simulate environmental dynamics and generate synthetic data. Existing methods struggle to disentangle ego-vehicle motion (perspective shifts) from scene evolvement (agent interactions), leading to suboptimal predictions. Instead, we propose to separate environmental changes from ego-motion by leveraging the scene-centric coordinate systems. In this paper, we introduce COME: a framework that integrates scene-centric forecasting Control into the Occupancy world ModEl. Specifically, COME first generates ego-irrelevant, spatially consistent future features through a scene-centric prediction branch, which are then converted into scene condition using a tailored ControlNet. These condition features are subsequently injected into the occupancy world model, enabling more accurate and controllable future occupancy predictions. Experimental results on the nuScenes-Occ3D dataset show that COME achieves consistent and significant improvements over state-of-the-art (SOTA) methods across diverse configurations, including different input sources (ground-truth, camera-based, fusion-based occupancy) and prediction horizons (3s and 8s). For example, under the same settings, COME achieves 26.3% better mIoU metric than DOME and 23.7% better mIoU metric than UniScene. These results highlight the efficacy of disentangled representation learning in enhancing spatio-temporal prediction fidelity for world models. Code and videos will be available at https://github.com/synsin0/COME.
Abstract（参考訳）: 世界モデルは、環境力学をシミュレートし、合成データを生成する自律運転にとって重要である。既存の方法は、シーンの進化(エージェントの相互作用)からエゴ車の動き(パースペクティブ・シフト)を解き放つのに苦労し、最適以下の予測に繋がる。そこで我々は,シーン中心の座標系を利用して環境変化をエゴ運動から分離することを提案する。本稿では,シーン中心の予測制御をOccupancy World ModElに統合するフレームワークであるCOMEを紹介する。具体的には、COMEはまず、シーン中心の予測ブランチを通じて、エゴ非関連で空間的に一貫した将来の特徴を生成し、その後、調整されたControlNetを使用してシーン状態に変換する。これらの条件特徴は、その後、より正確で制御可能な将来の占有予測を可能にする、占有世界モデルに注入される。 nuScenes-Occ3Dデータセットによる実験結果から、COMEは様々な入力源(地上トルス、カメラベース、核融合系)や予測地平線(3s、8s)を含む様々な構成の最先端(SOTA)メソッドに対して、一貫性と大幅な改善を達成している。例えば、同じ設定で、COMEはDOMEよりも26.3%mIoUメートル法、UniSceneより23.7%mIoUメートル法を達成している。これらの結果は,世界モデルの時空間的予測忠実度を高めるために,非交叉表現学習の有効性を強調した。コードとビデオはhttps://github.com/synsin0/COMEで入手できる。

関連論文リスト

Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文参考訳（メタデータ） (2026-01-29T17:07:43Z)
Flow and Depth Assisted Video Prediction with Latent Transformer [6.973908410173025]
本研究は,映像予測に係わる最初のシステマティックな研究である。我々は,多目的潜時変圧器の標準的なアーキテクチャを用いて将来のフレームを予測するが,これを修正して深度や点フローからの情報を組み込む。予測モデルに点流と深度を補助すると、隠蔽シナリオの精度が向上し、これらのモダリティを使わずにモデルよりも正確な背景動きを予測できることがわかった。
論文参考訳（メタデータ） (2025-11-20T15:54:33Z)
SceneAware: Scene-Constrained Pedestrian Trajectory Prediction with LLM-Guided Walkability [3.130722489512822]
SceneAwareは、軌跡予測精度を高めるためにシーン理解を明示的に組み込んだ新しいフレームワークである。我々はTransformerベースのトラジェクトリエンコーダとViTベースのシーンエンコーダを組み合わせることで、時間的ダイナミクスと空間的制約の両方をキャプチャする。本分析は, 各種歩行者運動において, モデルが一貫して良好に動作していることを示す。
論文参考訳（メタデータ） (2025-06-17T03:11:31Z)
Unified Human Localization and Trajectory Prediction with Monocular Vision [64.19384064365431]
MonoTransmotionはトランスフォーマーベースのフレームワークで、モノクロカメラのみを使用して、ローカライゼーションと予測タスクを共同で解決する。両タスクを統合フレームワークで共同でトレーニングすることにより,ノイズの多い入力による実環境シナリオにおいて,我々の手法がより堅牢であることを示す。
論文参考訳（メタデータ） (2025-03-05T14:18:39Z)
ASTRA: A Scene-aware TRAnsformer-based model for trajectory prediction [15.624698974735654]
ASTRA (A Scene-aware TRAnsformer based model for trajectory prediction) は軽量な歩行者軌道予測モデルである。我々は、U-Netベースの特徴抽出器を用いて、その潜在ベクトル表現を用いて、シーン表現をキャプチャし、グラフ対応トランスフォーマーエンコーダを用いて、ソーシャルインタラクションをキャプチャする。
論文参考訳（メタデータ） (2025-01-16T23:28:30Z)
OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。 OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文参考訳（メタデータ） (2024-09-14T07:44:22Z)
Self-supervised Multi-future Occupancy Forecasting for Autonomous Driving [45.886941596233974]
LiDARで生成された占有グリッドマップ(L-OGM)は、シーン表現のための頑丈な鳥眼ビューを提供する。提案するフレームワークであるLOPR(Latent Occupancy Prediction)は、生成アーキテクチャの潜在空間においてL-OGM予測を行う。
論文参考訳（メタデータ） (2024-07-30T18:37:59Z)
AdaOcc: Adaptive Forward View Transformation and Flow Modeling for 3D Occupancy and Flow Prediction [56.72301849123049]
CVPR 2024 における nuScenes Open-Occ データセットチャレンジにおいて,視覚中心の3次元活動とフロー予測トラックのソリューションを提案する。我々の革新的なアプローチは、適応的なフォワード・ビュー・トランスフォーメーションとフロー・モデリングを取り入れることで、3次元の占有率とフロー予測を向上させる2段階のフレームワークである。提案手法は回帰と分類を組み合わせることで,様々な場面におけるスケールの変動に対処し,予測フローを利用して将来のフレームに現行のボクセル特徴をワープする。
論文参考訳（メタデータ） (2024-07-01T16:32:15Z)
AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文参考訳（メタデータ） (2024-03-20T06:22:37Z)
LOPR: Latent Occupancy PRediction using Generative Models [49.15687400958916]
LiDARの生成した占有グリッドマップ(L-OGM)は、頑丈な鳥の視線シーンを表現している。本稿では,学習空間内での表現学習と予測という,占有率予測を分離する枠組みを提案する。
論文参考訳（メタデータ） (2022-10-03T22:04:00Z)
Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文参考訳（メタデータ） (2022-06-29T07:49:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。