論文の概要: VisionNVS: Self-Supervised Inpainting for Novel View Synthesis under the Virtual-Shift Paradigm
- arxiv url: http://arxiv.org/abs/2603.17382v1
- Date: Wed, 18 Mar 2026 05:57:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.528553
- Title: VisionNVS: Self-Supervised Inpainting for Novel View Synthesis under the Virtual-Shift Paradigm
- Title(参考訳): VisionNVS: 仮想シフトパラダイムによる新しいビュー合成のための自己監督型インペインティング
- Authors: Hongbo Lu, Liang Yao, Chenghao He, Fan Liu, Wenlong Liao, Tao He, Pai Peng,
- Abstract要約: VisionNVSはカメラのみのフレームワークで、不適切な外挿問題からのビュー合成を自己監督型インペイントタスクに再構成する。
また,VisionNVSは,LiDARに依存したベースラインよりも優れた幾何学的忠実度と視覚的品質が得られることを示す。
- 参考スコア(独自算出の注目度): 31.676825013974454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental bottleneck in Novel View Synthesis (NVS) for autonomous driving is the inherent supervision gap on novel trajectories: models are tasked with synthesizing unseen views during inference, yet lack ground truth images for these shifted poses during training. In this paper, we propose VisionNVS, a camera-only framework that fundamentally reformulates view synthesis from an ill-posed extrapolation problem into a self-supervised inpainting task. By introducing a ``Virtual-Shift'' strategy, we use monocular depth proxies to simulate occlusion patterns and map them onto the original view. This paradigm shift allows the use of raw, recorded images as pixel-perfect supervision, effectively eliminating the domain gap inherent in previous approaches. Furthermore, we address spatial consistency through a Pseudo-3D Seam Synthesis strategy, which integrates visual data from adjacent cameras during training to explicitly model real-world photometric discrepancies and calibration errors. Experiments demonstrate that VisionNVS achieves superior geometric fidelity and visual quality compared to LiDAR-dependent baselines, offering a robust solution for scalable driving simulation.
- Abstract(参考訳): モデルは推論中に目に見えないビューを合成する任務を負うが、トレーニング中にこれらのシフトしたポーズに対して根底的な真実のイメージが欠落している。
本稿では,不適切な外挿問題からのビュー合成を自己監督型インペイントタスクに根本的に再構成する,カメラのみのフレームワークであるVisionNVSを提案する。
Virtual-Shift'戦略を導入することで、モノクロ深度プロキシを使用して、オクルージョンパターンをシミュレートし、それらを元のビューにマッピングします。
このパラダイムシフトにより、元の記録された画像をピクセル完全監視として使用することができ、従来のアプローチに固有のドメインギャップを効果的に排除することができる。
さらに,Pseudo-3Dシーム合成手法を用いて,トレーニング中に隣接するカメラからの視覚データを統合し,実世界の測光誤差と校正誤差を明示的にモデル化する。
実験により、VisionNVSはLiDARに依存したベースラインよりも優れた幾何学的忠実度と視覚的品質を実現し、スケーラブルな運転シミュレーションのための堅牢なソリューションを提供することが示された。
関連論文リスト
- Rendering Anywhere You See: Renderability Field-guided Gaussian Splatting [4.89907242398523]
本研究では、シーンビュー合成のためのレンダリング性フィールド誘導ガウススプラッティング(RF-GS)を提案する。
RF-GSはレンダリング性フィールドを通じて入力の不均一性を定量化し、擬似ビューサンプリングを視覚的整合性の向上に導く。
シミュレーションおよび実世界のデータを用いた実験により,本手法は従来のレンダリング安定性の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-27T14:41:01Z) - Drive-1-to-3: Enriching Diffusion Priors for Novel View Synthesis of Real Vehicles [81.29018359825872]
本稿では,実世界の課題に対して,大規模な事前学習モデルを微調整するための一連の優れたプラクティスを統合する。
具体的には,合成データと実運転データとの相違を考慮に入れたいくつかの戦略を開発する。
我々の洞察は、先行芸術よりも新しいビュー合成のためのFIDを68.8%値下げする効果のある微調整につながる。
論文 参考訳(メタデータ) (2024-12-19T03:39:13Z) - StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models [76.62929629864034]
我々は,LDARポイントクラウドレンダリングをピクセルレベルの条件として利用する,制御可能なビデオ拡散モデルであるStreetCrafterを紹介する。
さらに、画素レベルのLiDAR条件を利用することで、ターゲットシーンに対して正確なピクセルレベルの編集を行うことができる。
我々のモデルは視点変化を柔軟に制御し、レンダリング領域を満たすためのビューを拡大する。
論文 参考訳(メタデータ) (2024-12-17T18:58:55Z) - FreeVS: Generative View Synthesis on Free Driving Trajectory [55.49370963413221]
FreeVSは、実際の運転シーンで、無料の新しい軌跡のカメラビューを合成できる、新しい完全に生成的なアプローチである。
FreeVSは、新しいトラジェクトリの再構成プロセスや合成ビューなしで、バリデーションシーケンスに適用できる。
論文 参考訳(メタデータ) (2024-10-23T17:59:11Z) - View-Invariant Policy Learning via Zero-Shot Novel View Synthesis [26.231630397802785]
本研究では,世界の大規模視覚データから得られる知識が,一般化可能な操作のための一軸の変動にどのように対処できるかを考察する。
本研究では,異なるカメラ視点から同一シーンの画像をレンダリングすることで,シーンレベルの3D認識を学習する単一画像の新規ビュー合成モデルについて検討する。
多様なロボットデータに実用的に応用するには、これらのモデルはゼロショットを動作させ、目に見えないタスクや環境でビュー合成を行う必要がある。
論文 参考訳(メタデータ) (2024-09-05T16:39:21Z) - Zero-to-Hero: Enhancing Zero-Shot Novel View Synthesis via Attention Map Filtering [16.382098950820822]
我々は、注目マップを操作することでビュー合成を強化する新しいテストタイムアプローチであるZero-to-Heroを提案する。
我々は、ソースビューからの情報を統合するために自己認識機構を変更し、形状歪みを低減する。
結果は、分散オブジェクトの多様なセットで検証された、忠実性と一貫性の大幅な改善を示す。
論文 参考訳(メタデータ) (2024-05-29T00:58:22Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。