Fugu-MT 論文翻訳(概要): UFO: Unifying Feed-Forward and Optimization-based Methods for Large Driving Scene Modeling

論文の概要: UFO: Unifying Feed-Forward and Optimization-based Methods for Large Driving Scene Modeling

arxiv url: http://arxiv.org/abs/2602.20943v1
Date: Tue, 24 Feb 2026 14:24:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.785256
Title: UFO: Unifying Feed-Forward and Optimization-based Methods for Large Driving Scene Modeling
Title（参考訳）: UFO:大規模運転シーンモデリングのためのフィードフォワードと最適化に基づく手法の統合
Authors: Kaiyuan Tan, Yingying Shen, Mingfei Tu, Haohui Zhu, Bing Wang, Guang Chen, Hangjun Ye, Haiyang Sun,
Abstract要約: 動的走行シーンの再構築は、自律運転シミュレーションと閉ループ学習に重要である。提案手法は,効率的な長距離4次元再構成のための最適化手法とフィードフォワード手法の利点を組み合わせた,新しいリカレントパラダイムであるUFOを提案する。提案手法は,16秒間駆動ログを0.5秒以内で再構成し,視覚的品質と幾何的精度を向上する。
参考スコア（独自算出の注目度）: 8.708521595911215
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Dynamic driving scene reconstruction is critical for autonomous driving simulation and closed-loop learning. While recent feed-forward methods have shown promise for 3D reconstruction, they struggle with long-range driving sequences due to quadratic complexity in sequence length and challenges in modeling dynamic objects over extended durations. We propose UFO, a novel recurrent paradigm that combines the benefits of optimization-based and feed-forward methods for efficient long-range 4D reconstruction. Our approach maintains a 4D scene representation that is iteratively refined as new observations arrive, using a visibility-based filtering mechanism to select informative scene tokens and enable efficient processing of long sequences. For dynamic objects, we introduce an object pose-guided modeling approach that supports accurate long-range motion capture. Experiments on the Waymo Open Dataset demonstrate that our method significantly outperforms both per-scene optimization and existing feed-forward methods across various sequence lengths. Notably, our approach can reconstruct 16-second driving logs within 0.5 second while maintaining superior visual quality and geometric accuracy.
Abstract（参考訳）: 動的走行シーンの再構築は、自律運転シミュレーションと閉ループ学習に重要である。最近のフィードフォワード法では3次元再構成が期待されているが、シーケンス長の2次複雑さと、長期にわたる動的オブジェクトのモデリングの課題により、長距離駆動シーケンスに苦慮している。提案手法は,効率的な長距離4次元再構成のための最適化手法とフィードフォワード手法の利点を組み合わせた,新しいリカレントパラダイムであるUFOを提案する。提案手法では,新たな観測が到着するにつれて繰り返し改良された4次元シーン表現を維持し,可視性に基づくフィルタリング機構を用いて,情報的シーントークンを選択し,長いシーケンスの効率的な処理を可能にする。動的オブジェクトに対しては,オブジェクトのポーズ誘導型モデリング手法を導入し,高精度な長距離モーションキャプチャを実現する。 Waymo Open Datasetの実験により,本手法はシーンごとの最適化と既存フィードフォワード法の両方を様々なシーケンス長で大幅に上回っていることが示された。特に,16秒間駆動ログを0.5秒以内で再構成し,視覚的品質と幾何的精度を向上する。

関連論文リスト

MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification [10.799902862870288]
MoRelは、時間的に一貫したメモリ効率のモデリングのための新しいフレームワークである。我々のアプローチは、時間的不連続を緩和し、成果物をひらめかせる。境界メモリ使用率を維持しつつ、時間的コヒーレントでフリッカフリーなロングレンジ4D再構成を実現する。
論文参考訳（メタデータ） (2025-12-10T02:49:09Z)
DGGT: Feedforward 4D Reconstruction of Dynamic Driving Scenes using Unposed Images [36.562825380568384]
ポーズレス動的シーン再構築のための統合フレームワークである textbf driving Gaussian Grounded Transformer (DGGT) を紹介する。提案手法は,フレームごとの3次元ガウスマップとカメラパラメータを共同で予測し,軽量なダイナミックヘッドでダイナミックスを歪曲する。拡散ベースのレンダリング改善により、運動・補間アーティファクトがさらに減少し、スパース入力下での新規ビュー品質が向上する。
論文参考訳（メタデータ） (2025-12-02T18:29:18Z)
Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文参考訳（メタデータ） (2025-11-01T11:16:25Z)
Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving [116.10577967146762]
マルチビュー画像シーケンスからフレーム単位のポイントマップを直接回帰するフレームワークであるDriv3Rを提案する。我々は4次元フロー予測器を用いてシーン内の移動物体を識別し、これらの動的領域の再構築をより重視する。 Driv3Rは4D動的シーン再構築において従来のフレームワークより優れており、推論速度は15倍高速である。
論文参考訳（メタデータ） (2024-12-09T18:58:03Z)
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文参考訳（メタデータ） (2024-10-04T18:00:07Z)
Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文参考訳（メタデータ） (2023-03-14T02:58:27Z)
Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文参考訳（メタデータ） (2023-01-14T09:43:23Z)
DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文参考訳（メタデータ） (2022-12-15T14:18:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。