論文の概要: ADGaussian: Generalizable Gaussian Splatting for Autonomous Driving with Multi-modal Inputs
- arxiv url: http://arxiv.org/abs/2504.00437v1
- Date: Tue, 01 Apr 2025 05:40:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:06.889367
- Title: ADGaussian: Generalizable Gaussian Splatting for Autonomous Driving with Multi-modal Inputs
- Title(参考訳): ADGaussian:マルチモーダル入力による自律走行のための一般化可能なガウススプラッティング
- Authors: Qi Song, Chenghong Li, Haotong Lin, Sida Peng, Rui Huang,
- Abstract要約: 本稿では,ADGaussianと呼ばれる新しいアプローチを提案する。
提案手法は,シングルビュー入力による高品質なレンダリングを実現する。
- 参考スコア(独自算出の注目度): 32.896888952578806
- License:
- Abstract: We present a novel approach, termed ADGaussian, for generalizable street scene reconstruction. The proposed method enables high-quality rendering from single-view input. Unlike prior Gaussian Splatting methods that primarily focus on geometry refinement, we emphasize the importance of joint optimization of image and depth features for accurate Gaussian prediction. To this end, we first incorporate sparse LiDAR depth as an additional input modality, formulating the Gaussian prediction process as a joint learning framework of visual information and geometric clue. Furthermore, we propose a multi-modal feature matching strategy coupled with a multi-scale Gaussian decoding model to enhance the joint refinement of multi-modal features, thereby enabling efficient multi-modal Gaussian learning. Extensive experiments on two large-scale autonomous driving datasets, Waymo and KITTI, demonstrate that our ADGaussian achieves state-of-the-art performance and exhibits superior zero-shot generalization capabilities in novel-view shifting.
- Abstract(参考訳): 本稿では,ADGaussianと呼ばれる新しいアプローチを提案する。
提案手法は,シングルビュー入力による高品質なレンダリングを実現する。
幾何学的洗練を主眼とする従来のガウス散乱法とは異なり、正確なガウス予測のために画像と深度の特徴を共同で最適化することの重要性を強調した。
この目的のために,視覚情報と幾何学的手がかりの合同学習フレームワークとしてガウス予測過程を定式化した,疎LiDAR深度を付加的な入力モダリティとして組み込んだ。
さらに,マルチモーダル特徴マッチングとマルチスケールガウス復号モデルを組み合わせたマルチモーダル特徴マッチング手法を提案し,効率の良いガウス学習を実現する。
WaymoとKITTIという2つの大規模自動運転データセットの大規模な実験は、ADGaussianが最先端のパフォーマンスを達成し、新規ビューシフトにおいて優れたゼロショット一般化能力を示すことを示した。
関連論文リスト
- Generative Densification: Learning to Densify Gaussians for High-Fidelity Generalizable 3D Reconstruction [6.273357335397336]
本稿では,フィードフォワードモデルにより生成されたガウスを高効率で一般化可能な手法であるジェネレーティブ・デンシフィケーションを提案する。
提案手法は, モデルサイズが同等あるいは小さく, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-09T06:20:51Z) - SmileSplat: Generalizable Gaussian Splats for Unconstrained Sparse Images [91.28365943547703]
SmileSplatという新しい一般化可能なガウス格子法が提案され,様々なシナリオに対して画素整列ガウス波を再構成する。
提案手法は,様々な3次元視覚タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-27T05:52:28Z) - Mini-Splatting2: Building 360 Scenes within Minutes via Aggressive Gaussian Densification [4.733612131945549]
Mini-Splatting2は最適化時間、ガウス数、レンダリング品質のバランスの取れたトレードオフを実現する。
我々の研究は、現実世界のアプリケーションにおいて、より効率的で高品質な3Dシーンモデリングのステージを定めている。
論文 参考訳(メタデータ) (2024-11-19T11:47:40Z) - PixelGaussian: Generalizable 3D Gaussian Reconstruction from Arbitrary Views [116.10577967146762]
PixelGaussianは、任意の視点から一般化可能な3Dガウス再構成を学習するための効率的なフレームワークである。
提案手法は,様々な視点によく一般化した最先端性能を実現する。
論文 参考訳(メタデータ) (2024-10-24T17:59:58Z) - MCGS: Multiview Consistency Enhancement for Sparse-View 3D Gaussian Radiance Fields [73.49548565633123]
3Dガウシアンによって表現される放射場は、高いトレーニング効率と高速レンダリングの両方を提供する、新しいビューの合成に優れている。
既存の手法では、高密度推定ネットワークからの奥行き先を組み込むことが多いが、入力画像に固有の多視点一貫性を見落としている。
本稿では,3次元ガウス・スプレイティング(MCGS)に基づくビュー・フレームワークを提案し,スパークス・インプット・ビューからシーンを再構築する。
論文 参考訳(メタデータ) (2024-10-15T08:39:05Z) - GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis [70.24111297192057]
我々は、文字の新たなビューをリアルタイムに合成するための新しいアプローチ、GPS-Gaussianを提案する。
提案手法は,スパースビューカメラ設定下での2K解像度のレンダリングを可能にする。
論文 参考訳(メタデータ) (2023-12-04T18:59:55Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - A Generalized EigenGame with Extensions to Multiview Representation
Learning [0.28647133890966997]
一般化固有値問題(GEPs)は、様々な興味深い次元減少法を含んでいる。
我々は、ラグランジュ乗算器によって全ての制約がソフトに強制されるGEPの解法を開発する。
線形の場合、我々のアプローチは、以前のヘビアンとゲーム理論のアプローチの理論的根拠の多くを共有していることを示す。
標準マルチビューデータセットの設定におけるGEPの解法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-21T10:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。