論文の概要: Geo-EVS: Geometry-Conditioned Extrapolative View Synthesis for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2604.07250v1
- Date: Wed, 08 Apr 2026 16:13:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.627668
- Title: Geo-EVS: Geometry-Conditioned Extrapolative View Synthesis for Autonomous Driving
- Title(参考訳): Geo-EVS: 自動走行のためのジオメトリコンディション付き外挿ビュー合成
- Authors: Yatong Lan, Rongkui Tang, Lei He,
- Abstract要約: 補間的新しいビュー合成は、自律運転におけるカメラ・リグ依存性を減少させる。
既存の方法は、外挿されたポーズが弱い幾何学的支持を与えるため、記録された軌道の外側で劣化する。
疎監督下での幾何条件付きフレームワークであるGeo-EVSを提案する。
- 参考スコア(独自算出の注目度): 2.111675814267798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extrapolative novel view synthesis can reduce camera-rig dependency in autonomous driving by generating standardized virtual views from heterogeneous sensors. Existing methods degrade outside recorded trajectories because extrapolated poses provide weak geometric support and no dense target-view supervision. The key is to explicitly expose the model to out-of-trajectory condition defects during training. We propose Geo-EVS, a geometry-conditioned framework under sparse supervision. Geo-EVS has two components. Geometry-Aware Reprojection (GAR) uses fine-tuned VGGT to reconstruct colored point clouds and reproject them to observed and virtual target poses, producing geometric condition maps. This design unifies the reprojection path between training and inference. Artifact-Guided Latent Diffusion (AGLD) injects reprojection-derived artifact masks during training so the model learns to recover structure under missing support. For evaluation, we use a LiDAR-Projected Sparse-Reference (LPSR) protocol when dense extrapolated-view ground truth is unavailable. On Waymo, Geo-EVS improves sparse-view synthesis quality and geometric accuracy, especially in high-angle and low-coverage settings. It also improves downstream 3D detection.
- Abstract(参考訳): 補間的新規ビュー合成は、異種センサから標準化された仮想ビューを生成することにより、自律運転におけるカメラリグ依存性を低減することができる。
既存の方法は、外挿されたポーズが弱い幾何学的支持を与え、密集したターゲットビューの監督を行なわないため、記録された軌道の外側で劣化する。
鍵となるのは、トレーニング中にモデルをアウトオブトラジェクショナルな状態の欠陥に明示的に公開することだ。
疎監督下での幾何条件付きフレームワークであるGeo-EVSを提案する。
Geo-EVSには2つのコンポーネントがある。
Geometry-Aware Reprojection (GAR)は、微調整されたVGGTを使用して、色のついた点雲を再構成し、それらを観測された仮想的なターゲットのポーズに再投影し、幾何学的条件マップを生成する。
この設計は、トレーニングと推論の間の再プロジェクションパスを統一する。
Artifact-Guided Latent Diffusion (AGLD) は、トレーニング中にリジェクション由来のアーティファクトマスクを注入する。
評価には、高密度な外挿視野基底真理が利用できない場合、LiDAR-Projected Sparse-Reference (LPSR)プロトコルを使用する。
Waymo上では、Geo-EVSはスパースビューの合成品質と幾何学的精度を改善する。
下流の3D検出も改善されている。
関連論文リスト
- Unifying UAV Cross-View Geo-Localization via 3D Geometric Perception [51.687842983240564]
無人航空機(UAV)のクロスビューな地上局地化は、斜めのUAV画像と衛星地図との厳密な幾何学的相違により、いまだに困難である。
本稿では,3次元シーン形状を明示的にモデル化し,粗い位置認識ときめ細かなポーズ推定を統一する,幾何認識型UAV測位フレームワークを提案する。
提案手法は, 最先端のベースラインを著しく上回り, ロバストメータレベルのローカライゼーション精度を実現し, 複雑な都市環境における一般化を向上する。
論文 参考訳(メタデータ) (2026-04-02T08:08:41Z) - SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments [49.966170814478915]
UAV VLNのための幾何学誘導空間表現フレームワークを提案する。
明示的な3次元再構成を伴わないRGB観測において、SpatialFlyは幾何学誘導2次元表示アライメント機構を導入する。
実験結果から、SpatialFlyは現状のUAV VLNベースラインを目に見える環境と見えない環境の両方で一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-22T03:56:58Z) - GPA-VGGT:Adapting VGGT to Large Scale Localization by Self-Supervised Learning with Geometry and Physics Aware Loss [15.633839321933385]
近年のVisual Geometry Grounded Transformer (VGGT) モデルの進歩は、カメラのポーズ推定と3次元再構成において大きな可能性を秘めている。
これらのモデルは通常、トレーニングのために真実のラベルを頼りにしており、ラベルのない、目に見えないシーンに適応する際の課題を提起している。
本稿では,VGGTをラベルのないデータで訓練する自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-23T16:46:59Z) - HBSplat: Robust Sparse-View Gaussian Reconstruction with Hybrid-Loss Guided Depth and Bidirectional Warping [11.035994094874141]
HBSplatは、堅牢な構造的キュー、仮想ビュー制約、隠蔽された領域補完をシームレスに統合するフレームワークである。
HBSplatは21.13dBのPSNRと0.189LPIPSを達成し、リアルタイム推論を維持している。
論文 参考訳(メタデータ) (2025-09-29T15:03:31Z) - OracleGS: Grounding Generative Priors for Sparse-View Gaussian Splatting [78.70702961852119]
OracleGSは、Gaussian Splattingのスパースビューのために、生成的完全性と回帰的忠実性を調整している。
提案手法は,多視点幾何学的証拠に先立って強力な生成条件を定め,幻覚的アーティファクトをフィルタリングし,非拘束領域における可塑性完備を保存している。
論文 参考訳(メタデータ) (2025-09-27T11:19:32Z) - RLGF: Reinforcement Learning with Geometric Feedback for Autonomous Driving Video Generation [75.61028930882144]
この重要な問題を特定し定量化し,合成データと実データを用いた場合の3次元物体検出における顕著な性能差を示す。
本稿では,RLGFを用いた強化学習(Reinforcement Learning with Geometric Feedback, RLGF)を紹介する。
RLGFは幾何誤差(例えばVPエラーを21%、深さエラーを57%)を大幅に削減し、3Dオブジェクト検出のmAPを12.7%改善し、実際のデータ性能のギャップを狭める。
論文 参考訳(メタデータ) (2025-09-20T02:23:36Z) - Outdoor Scene Extrapolation with Hierarchical Generative Cellular Automata [70.9375320609781]
我々は,自律走行車(AV)で多量に捕獲された大規模LiDARスキャンから微細な3次元形状を生成することを目指している。
本稿では,空間的にスケーラブルな3次元生成モデルである階層型生成セルオートマトン (hGCA) を提案する。
論文 参考訳(メタデータ) (2024-06-12T14:56:56Z) - DARF: Depth-Aware Generalizable Neural Radiance Field [51.29437249009986]
本稿では,Depth-Aware Dynamic Smpling(DADS)戦略を用いたDARF(Depth-Aware Generalizable Neural Radiance Field)を提案する。
筆者らのフレームワークは,数枚の入力画像で,画素レベルと幾何学レベルの両方の見えないシーンを推測する。
DARFは、最先端の一般化可能なNeRF法と比較して、レンダリング品質と深さ推定を改善しつつ、サンプルを50%削減する。
論文 参考訳(メタデータ) (2022-12-05T14:00:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。