論文の概要: I2V-GS: Infrastructure-to-Vehicle View Transformation with Gaussian Splatting for Autonomous Driving Data Generation
- arxiv url: http://arxiv.org/abs/2507.23683v1
- Date: Thu, 31 Jul 2025 15:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:10.11295
- Title: I2V-GS: Infrastructure-to-Vehicle View Transformation with Gaussian Splatting for Autonomous Driving Data Generation
- Title(参考訳): I2V-GS: 自律運転データ生成のためのガウススプラッティングによるインフラ間ビュー変換
- Authors: Jialei Chen, Wuhao Xu, Sipeng He, Baoru Huang, Dongchun Ren,
- Abstract要約: 本稿では,Gaussian Splatting を用いたインフラストラクチャビューを車両ビューに転送する新しい手法 I2V-GS を提案する。
また、インフラストラクチャビューの実際のシナリオからマルチモダリティ、マルチビューのデータセットであるRoadSightを紹介します。
I2V-GSは車両の視界における品質を大幅に改善し、NTA-Iou、NTL-Iou、FIDでは45.7%、34.2%、14.9%でStreetGaussianを上回った。
- 参考スコア(独自算出の注目度): 4.041586891110227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vast and high-quality data are essential for end-to-end autonomous driving systems. However, current driving data is mainly collected by vehicles, which is expensive and inefficient. A potential solution lies in synthesizing data from real-world images. Recent advancements in 3D reconstruction demonstrate photorealistic novel view synthesis, highlighting the potential of generating driving data from images captured on the road. This paper introduces a novel method, I2V-GS, to transfer the Infrastructure view To the Vehicle view with Gaussian Splatting. Reconstruction from sparse infrastructure viewpoints and rendering under large view transformations is a challenging problem. We adopt the adaptive depth warp to generate dense training views. To further expand the range of views, we employ a cascade strategy to inpaint warped images, which also ensures inpainting content is consistent across views. To further ensure the reliability of the diffusion model, we utilize the cross-view information to perform a confidenceguided optimization. Moreover, we introduce RoadSight, a multi-modality, multi-view dataset from real scenarios in infrastructure views. To our knowledge, I2V-GS is the first framework to generate autonomous driving datasets with infrastructure-vehicle view transformation. Experimental results demonstrate that I2V-GS significantly improves synthesis quality under vehicle view, outperforming StreetGaussian in NTA-Iou, NTL-Iou, and FID by 45.7%, 34.2%, and 14.9%, respectively.
- Abstract(参考訳): エンドツーエンドの自動運転システムには、破壊的かつ高品質なデータが不可欠である。
しかし、現在の運転データは主に高価で非効率な車両によって収集される。
潜在的な解決策は、現実世界の画像からデータを合成することにある。
近年の3次元再構成の進歩は、道路上で撮影された画像から駆動データを生成する可能性を強調し、光リアルな新しいビュー合成を実証している。
本稿では,Gaussian Splatting を用いたインフラストラクチャビューを車両ビューに転送する新しい手法 I2V-GS を提案する。
スパースインフラストラクチャの観点からの再構築と大きなビュー変換によるレンダリングは難しい問題です。
適応深度ワープを用いて、密集したトレーニングビューを生成する。
ビューの範囲を拡大するため、我々はカスケード戦略を用いて、歪んだ画像をインペイントし、また、コンテンツがビュー間で一貫性があることを保証する。
拡散モデルの信頼性をさらに高めるため,信頼度最適化を行うためにクロスビュー情報を利用する。
さらに、インフラビューの実際のシナリオからマルチモダリティ、マルチビューのデータセットであるRoadSightを紹介します。
我々の知る限り、I2V-GSはインフラ-車両ビュー変換による自律走行データセットを生成する最初のフレームワークです。
実験の結果、I2V-GSは車体視下での合成品質を著しく改善し、NTA-Iou、NTL-Iou、FIDでそれぞれ45.7%、34.2%、14.9%でStreetGaussianを上回った。
関連論文リスト
- BRUM: Robust 3D Vehicle Reconstruction from 360 Sparse Images [21.811586185200706]
本稿では,スパースビュー入力から車両を再構築する際の課題について述べる。
我々は、新しいビューを合成するために、深度マップとロバストなポーズ推定アーキテクチャを活用する。
本稿では,合成と現実の両方の公共交通機関を特徴とする新しいデータセットを提案する。
論文 参考訳(メタデータ) (2025-07-16T10:04:35Z) - MTGS: Multi-Traversal Gaussian Splatting [51.22657444433942]
マルチトラバースデータは、道路ブロック内のシーン再構築のための複数の視点を提供する。
任意に収集したマルチトラバーサルデータから高品質な運転シーンを再構成する新しい手法であるマルチトラバーサル・ガウス・スプラッティング(MTGS)を提案する。
その結果、MTGSはLPIPSを23.5%改善し、幾何学的精度は46.3%向上した。
論文 参考訳(メタデータ) (2025-03-16T15:46:12Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - V2X-VLM: End-to-End V2X Cooperative Autonomous Driving Through Large Vision-Language Models [13.716889927164383]
自動車間協力(V2X)は、古典的な自動運転の認識限界を克服するための有望なパラダイムとして浮上している。
本稿では、視覚言語モデル(VLM)に基づく新しいエンドツーエンド(E2E)協調自動運転フレームワークであるV2X-VLMを紹介する。
V2X-VLMは、車両やインフラからの多視点カメラビューとテキストベースのシーン記述を統合し、運転環境のより包括的な理解を可能にする。
論文 参考訳(メタデータ) (2024-08-17T16:42:13Z) - Learning Lane Graphs from Aerial Imagery Using Transformers [7.718401895021425]
この研究は、航空画像から後継車線グラフを生成する新しいアプローチを導入している。
後継レーングラフを最大長経路の集合としてフレーム化し,検出変換器(DETR)アーキテクチャを用いてそれらを予測する。
本手法の有効性を多種多様な大規模UrbanLaneGraphデータセットの広範な実験により実証する。
論文 参考訳(メタデータ) (2024-07-08T07:42:32Z) - Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。
データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - Deep Perspective Transformation Based Vehicle Localization on Bird's Eye
View [0.49747156441456597]
従来のアプローチでは、環境をシミュレートする複数のセンサーのインストールに依存していた。
シーンのトップダウン表現を生成することで、代替ソリューションを提案する。
本稿では,RGB画像の視点ビューを,周囲の車両を分割した鳥眼ビューマップに変換するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-11-12T10:16:42Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。