論文の概要: MTGS: Multi-Traversal Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2503.12552v2
- Date: Thu, 20 Mar 2025 08:09:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 12:14:48.549845
- Title: MTGS: Multi-Traversal Gaussian Splatting
- Title(参考訳): MTGS:マルチトラバーサル・ガウス・スプレイティング
- Authors: Tianyu Li, Yihang Qiu, Zhenhua Wu, Carl Lindström, Peng Su, Matthias Nießner, Hongyang Li,
- Abstract要約: マルチトラバースデータは、道路ブロック内のシーン再構築のための複数の視点を提供する。
任意に収集したマルチトラバーサルデータから高品質な運転シーンを再構成する新しい手法であるマルチトラバーサル・ガウス・スプラッティング(MTGS)を提案する。
その結果、MTGSはLPIPSを23.5%改善し、幾何学的精度は46.3%向上した。
- 参考スコア(独自算出の注目度): 51.22657444433942
- License:
- Abstract: Multi-traversal data, commonly collected through daily commutes or by self-driving fleets, provides multiple viewpoints for scene reconstruction within a road block. This data offers significant potential for high-quality novel view synthesis, which is crucial for applications such as autonomous vehicle simulators. However, inherent challenges in multi-traversal data often result in suboptimal reconstruction quality, including variations in appearance and the presence of dynamic objects. To address these issues, we propose Multi-Traversal Gaussian Splatting (MTGS), a novel approach that reconstructs high-quality driving scenes from arbitrarily collected multi-traversal data by modeling a shared static geometry while separately handling dynamic elements and appearance variations. Our method employs a multi-traversal dynamic scene graph with a shared static node and traversal-specific dynamic nodes, complemented by color correction nodes with learnable spherical harmonics coefficient residuals. This approach enables high-fidelity novel view synthesis and provides flexibility to navigate any viewpoint. We conduct extensive experiments on a large-scale driving dataset, nuPlan, with multi-traversal data. Our results demonstrate that MTGS improves LPIPS by 23.5% and geometry accuracy by 46.3% compared to single-traversal baselines. The code and data would be available to the public.
- Abstract(参考訳): 日中通勤や自動走行車によって一般的に収集されるマルチトラバースデータは、道路ブロック内のシーン再構築のための複数の視点を提供する。
このデータは、自動運転車シミュレーターのようなアプリケーションにとって重要な、高品質な新規ビュー合成のための重要な可能性を提供する。
しかし、マルチトラバースデータに固有の課題は、外観の変化や動的物体の存在など、しばしば最適でない復元品質をもたらす。
これらの問題に対処するため,我々は,動的要素と外観のばらつきを別々に扱いながら,共有静的幾何をモデル化することにより,高品質な運転シーンを任意に収集したマルチトラバースデータから再構成する,MTGS(Multi-Traversal Gaussian Splatting)を提案する。
提案手法では,色補正ノードと学習可能な球面高調波係数残差を補足して,共有静的ノードとトラバース固有動的ノードを有するマルチトラバース動的シーングラフを用いる。
このアプローチは、高忠実な新規ビュー合成を可能にし、あらゆる視点をナビゲートする柔軟性を提供する。
大規模運転データセットであるnuPlanについて,マルチトラバースデータを用いて広範な実験を行った。
その結果、MTGSはLPIPSを23.5%改善し、幾何学的精度は46.3%向上した。
コードとデータは一般公開される予定だ。
関連論文リスト
- LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Generalizable Implicit Neural Representation As a Universal Spatiotemporal Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-06-13T02:03:22Z) - Spatiotemporal Implicit Neural Representation as a Generalized Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-05-06T06:23:06Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Eagle: Large-Scale Learning of Turbulent Fluid Dynamics with Mesh
Transformers [23.589419066824306]
流体力学を推定することは、解決するのが非常に難しい。
問題に対する新しいモデル,メソッド,ベンチマークを導入する。
我々の変換器は、既存の合成データセットと実際のデータセットの両方において、最先端のパフォーマンスより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-16T12:59:08Z) - Normal Transformer: Extracting Surface Geometry from LiDAR Points Enhanced by Visual Semantics [7.507853813361308]
本稿では,LiDARとカメラセンサから得られた3次元点雲と2次元カラー画像を利用して表面正規化を行うマルチモーダル手法を提案する。
本稿では,視覚的意味論と3次元幾何学的情報を巧みに融合した,トランスフォーマーに基づくニューラルネットワークアーキテクチャを提案する。
交通シーンを模倣したシミュレーション3D環境から,提案モデルが学習可能であることが確認された。
論文 参考訳(メタデータ) (2022-11-19T03:55:09Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。