論文の概要: XYZCylinder: Feedforward Reconstruction for Driving Scenes Based on A Unified Cylinder Lifting Method
- arxiv url: http://arxiv.org/abs/2510.07856v1
- Date: Thu, 09 Oct 2025 06:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.916136
- Title: XYZCylinder: Feedforward Reconstruction for Driving Scenes Based on A Unified Cylinder Lifting Method
- Title(参考訳): XYZシリンダ:統一シリンダリフティング法による運転シーンのフィードフォワード再構成
- Authors: Haochen Yu, Qiankun Liu, Hongyuan Liu, Jianfei Jiang, Juntao Lyu, Jiansheng Chen, Huimin Ma,
- Abstract要約: 統一シリンダリフト法に基づくフィードフォワードモデルである textbfXYZ Cylinder を提案する。
具体的には、視点に依存した空間対応の学習を避けるため、UCCM(Unified Cylinder Camera Modeling)戦略を設計する。
再構成精度を向上させるために,新たに設計されたCylinder Plane Feature Groupに基づく複数の専用モジュールを用いたハイブリッド表現を提案する。
- 参考スコア(独自算出の注目度): 27.213339282749885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, more attention has been paid to feedforward reconstruction paradigms, which mainly learn a fixed view transformation implicitly and reconstruct the scene with a single representation. However, their generalization capability and reconstruction accuracy are still limited while reconstructing driving scenes, which results from two aspects: (1) The fixed view transformation fails when the camera configuration changes, limiting the generalization capability across different driving scenes equipped with different camera configurations. (2) The small overlapping regions between sparse views of the $360^\circ$ panorama and the complexity of driving scenes increase the learning difficulty, reducing the reconstruction accuracy. To handle these difficulties, we propose \textbf{XYZCylinder}, a feedforward model based on a unified cylinder lifting method which involves camera modeling and feature lifting. Specifically, to improve the generalization capability, we design a Unified Cylinder Camera Modeling (UCCM) strategy, which avoids the learning of viewpoint-dependent spatial correspondence and unifies different camera configurations with adjustable parameters. To improve the reconstruction accuracy, we propose a hybrid representation with several dedicated modules based on newly designed Cylinder Plane Feature Group (CPFG) to lift 2D image features to 3D space. Experimental results show that XYZCylinder achieves state-of-the-art performance under different evaluation settings, and can be generalized to other driving scenes in a zero-shot manner. Project page: \href{https://yuyuyu223.github.io/XYZCYlinder-projectpage/}{here}.
- Abstract(参考訳): 近年,固定ビュー変換を暗黙的に学習し,単一の表現でシーンを再構築するフィードフォワード再構築パラダイムに注目が集まっている。
しかし,その一般化能力と再現精度は,(1)カメラ構成が変化すると固定ビュー変換が失敗し,異なるカメラ構成の異なる運転シーンにまたがる一般化能力が制限されるという2つの側面から生じる。
2) パノラマ360^\circ$パノラマのスパースビューと運転シーンの複雑さの間の小さな重なり合う領域は学習困難を増大させ,再現精度を低下させる。
これらの問題に対処するために,カメラモデリングと特徴持ち上げを含む統一シリンダー昇降法に基づくフィードフォワードモデルである「textbf{XYZCylinder}」を提案する。
具体的には、一般化能力を改善するために、視点に依存した空間対応の学習を回避し、調整可能なパラメータで異なるカメラ構成を統一する統一シリンダカメラモデリング(UCCM)戦略を設計する。
再構成精度を向上させるために,新たに設計されたCylinder Plane Feature Group (CPFG) に基づく複数の専用モジュールを用いたハイブリッド表現を提案する。
実験結果から,XYZCylinderは異なる評価条件下での最先端性能を実現し,ゼロショット方式で他の運転シーンに一般化可能であることが示された。
プロジェクトページ: \href{https://yuyu223.github.io/XYZCYlinder-projectpage/}{here}。
関連論文リスト
- GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。
SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。
トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文 参考訳(メタデータ) (2025-05-17T13:05:13Z) - FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [69.63414788486578]
FreeSplatterはスケーラブルなフィードフォワードフレームワークで、キャリブレーションされていないスパースビュー画像から高品質な3Dガウシアンを生成する。
当社のアプローチでは,自己注意ブロックが情報交換を容易にする合理化トランスフォーマーアーキテクチャを採用している。
包括的データセットに基づいて,オブジェクト中心とシーンレベルの再構築のための2つの特殊な変種を開発する。
論文 参考訳(メタデータ) (2024-12-12T18:52:53Z) - DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z) - Enhanced Stable View Synthesis [86.69338893753886]
本稿では,自由に動くカメラから撮影した画像から,新しいビュー合成を強化するアプローチを提案する。
導入されたアプローチは、正確な幾何学的足場とカメラのポーズの復元が困難な屋外シーンに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-30T01:53:14Z) - Vid2Curve: Simultaneous Camera Motion Estimation and Thin Structure
Reconstruction from an RGB Video [90.93141123721713]
ワイヤーフレーム彫刻、フェンス、ケーブル、電力線、木の枝などの細い構造は現実世界では一般的である。
従来の画像ベースや深度ベースの再構築手法を用いて3Dデジタルモデルを入手することは極めて困難である。
ハンドヘルドカメラで撮影したカラービデオから,カメラの動きを同時に推定し,複雑な3次元薄膜構造の形状を高品質に再構成する手法を提案する。
論文 参考訳(メタデータ) (2020-05-07T10:39:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。