Fugu-MT 論文翻訳(概要): NavCrafter: Exploring 3D Scenes from a Single Image

論文の概要: NavCrafter: Exploring 3D Scenes from a Single Image

arxiv url: http://arxiv.org/abs/2604.02828v1
Date: Fri, 03 Apr 2026 07:50:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.380056
Title: NavCrafter: Exploring 3D Scenes from a Single Image
Title（参考訳）: NavCrafter:1枚の画像から3Dシーンを探索
Authors: Hongbo Duan, Peiyu Zhuang, Yi Liu, Zhengyang Zhang, Yuxin Zhang, Pengting Luo, Fangming Liu, Xueqian Wang,
Abstract要約: NavCrafterは、新しいビュービデオシーケンスを合成することによって、単一のイメージから3Dシーンを探索するフレームワークである。本稿では,多段階カメラ制御機構を提案する。実験により、NavCrafterは、大きな視点シフトの下で最先端のノベルビュー合成を実現することが示された。
参考スコア（独自算出の注目度）: 25.95468802469574
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Creating flexible 3D scenes from a single image is vital when direct 3D data acquisition is costly or impractical. We introduce NavCrafter, a novel framework that explores 3D scenes from a single image by synthesizing novel-view video sequences with camera controllability and temporal-spatial consistency. NavCrafter leverages video diffusion models to capture rich 3D priors and adopts a geometry-aware expansion strategy to progressively extend scene coverage. To enable controllable multi-view synthesis, we introduce a multi-stage camera control mechanism that conditions diffusion models with diverse trajectories via dual-branch camera injection and attention modulation. We further propose a collision-aware camera trajectory planner and an enhanced 3D Gaussian Splatting (3DGS) pipeline with depth-aligned supervision, structural regularization and refinement. Extensive experiments demonstrate that NavCrafter achieves state-of-the-art novel-view synthesis under large viewpoint shifts and substantially improves 3D reconstruction fidelity.
Abstract（参考訳）: 単一の画像から柔軟な3Dシーンを作成することは、直接的に3Dデータを取得するのにコストがかかるか実用的でない場合、不可欠である。カメラ制御性と時間空間整合性を備えた新規視点映像シーケンスを合成することにより,単一画像から3Dシーンを探索する新しいフレームワークであるNavCrafterを紹介した。 NavCrafterはビデオ拡散モデルを活用して、リッチな3Dプリエントをキャプチャし、幾何学的に認識された拡張戦略を採用して、シーンカバレッジを徐々に拡張する。制御可能なマルチビュー合成を実現するため,デュアルブランチカメラインジェクションとアテンション変調を用いた多段階カメラ制御機構を導入する。さらに, 衝突対応カメラトラジェクトリプランナと, 奥行き調整, 構造正則化, 改良を施した3次元ガウススプラッティング(3DGS)パイプラインを提案する。広汎な実験により、NavCrafterは、大きな視点シフトの下で最先端のノベルビュー合成を実現し、3次元再構成忠実度を大幅に向上することを示した。

関連論文リスト

Stepper: Stepwise Immersive Scene Generation with Multiview Panoramas [101.58587238272462]
テキスト駆動型没入型3Dシーン合成のための統合フレームワークであるStepperを提案する。 Stepperは新しい大規模なマルチビューパノラマデータセットでトレーニングされている。最先端の忠実さと構造的な一貫性を実現し、以前のアプローチよりも優れています。
論文参考訳（メタデータ） (2026-03-30T20:26:28Z)
Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion [69.64308172688368]
Tri-Promptingは、シーン構成、マルチビューの主題整合性、モーションコントロールを統合する統合フレームワークである。その結果,Tri-Promptingは多視点被写体識別,3次元整合性,運動精度においてPhantomやDaSなどの特殊ベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2026-03-16T17:59:05Z)
MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model [83.12400850233034]
人間と物体の相互作用(Human-Object Interaction,HOI)ビデオのリアルな動きによる再現は、デジタル人間の創造のフロンティアである。マルチビュー参照条件とビデオ基盤モデルをブリッジする2段階のHOIビデオ再現フレームワークであるMVHOIを提案する。本フレームワークは,複雑なオブジェクト操作による長期HOIビデオの生成において,優れた性能を示す。
論文参考訳（メタデータ） (2026-03-16T00:43:38Z)
SpatialTrackerV2: 3D Point Tracking Made Easy [73.0350898700048]
SpaceTrackerV2はモノクロビデオのフィードフォワード3Dポイントトラッキング手法である。これは、世界空間の3Dモーションをシーン幾何学、カメラエゴモーション、ピクセルワイドオブジェクトモーションに分解する。このような異種データから幾何学と運動を共同で学習することで、SpatialTrackerV2は既存の3Dトラッキング方法よりも30%優れています。
論文参考訳（メタデータ） (2025-07-16T17:59:03Z)
Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation [66.95956271144982]
本稿では,単一画像から一貫した3Dポイントクラウドシーケンスを生成する新しいビデオ拡散フレームワークであるVoyagerを紹介する。既存のアプローチとは異なり、Voyagerはフレーム間で固有の一貫性を持って、エンドツーエンドのシーン生成と再構築を実現している。
論文参考訳（メタデータ） (2025-06-04T17:59:04Z)
SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。 SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文参考訳（メタデータ） (2025-05-17T13:05:13Z)
ACT-R: Adaptive Camera Trajectories for Single View 3D Reconstruction [16.03389355810877]
多視点合成に適応的な視点計画法を導入する。我々は3次元コヒーレンスを高めるために時間的一貫性を活用して一連のビューを生成する。
論文参考訳（メタデータ） (2025-05-13T05:31:59Z)
ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文参考訳（メタデータ） (2024-09-03T16:53:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。