論文の概要: ROAR-3D: Routing Arbitrary Views for High-Fidelity 3D Generation
- arxiv url: http://arxiv.org/abs/2605.21121v1
- Date: Wed, 20 May 2026 12:50:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.679633
- Title: ROAR-3D: Routing Arbitrary Views for High-Fidelity 3D Generation
- Title(参考訳): ROAR-3D:高忠実度3D生成のための任意ビューのルーティング
- Authors: Hanxiao Sun, Mingxin Yang, Shuhui Yang, Zebin He, Xintong Han, Hongbo Fu, Chunchao Guo, Wenhan Luo,
- Abstract要約: 単一像から3D生成モデルでは、高品質な幾何を生成できるが、単一のビューで条件付けすることで、目に見えない領域に関する曖昧さがもたらされる。
ROAR-3Dは、事前訓練された単一ビューモデルをアップグレードし、任意の数の未提示画像を受け入れる軽量な方法である。
ROAR-3Dは最先端のマルチビュー3D生成品質を実現し、一貫した改善で1~12ビュー以上のテストタイムビュースケーリングをサポートする。
- 参考スコア(独自算出の注目度): 37.92039103619653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-image-to-3D generative models can now produce high-quality geometry, yet conditioning on a single view inevitably introduces ambiguity about unseen regions. Multi-view conditioning can reduce this ambiguity, but existing methods either require fixed canonical viewpoints or rely on external reconstruction modules that impose heavy training costs and limit generation quality. We observe that pretrained single-view models already possess strong 2D-to-3D grounding that can be reused for multi-view conditioning. However, a closer analysis reveals that their conditioning mechanism entangles orientation control with geometry transfer, two functions that conflict when images from different viewpoints are naively combined. Based on this analysis, we propose ROAR-3D, a lightweight method that upgrades a pretrained single-view model to accept an arbitrary number of unposed images. A token-wise view router assigns each 3D latent token to its most relevant view, implicitly establishing 2D-to-3D correspondences without explicit pose input. A dual-stream attention design preserves the pretrained primary-view behavior while routing auxiliary views through a separate path dedicated to geometric enrichment. An orientation perturbation strategy ensures the auxiliary path learns orientation-independent geometry transfer. These components introduce minimal trainable parameters and add negligible inference overhead relative to the single-view baseline. ROAR-3D achieves state-of-the-art multi-view 3D generation quality and supports test-time view scaling from 1 to 12+ views with consistent improvements.
- Abstract(参考訳): 単一像から3D生成モデルでは、高品質な幾何を生成できるが、単一のビューで条件付けすることは、必然的に目に見えない領域の曖昧さをもたらす。
マルチビューコンディショニングは、この曖昧さを軽減できるが、既存の手法では、固定された標準視点を必要とするか、重いトレーニングコストと生成品質の制限を課す外部再構築モジュールに依存している。
事前学習されたシングルビューモデルには,マルチビュー条件下で再利用可能な2D-to-3Dグラウンドリングがすでに存在することが観察された。
しかし、より密な分析により、それらの条件付け機構は、異なる視点からのイメージがナビゲート的に結合されたときに相反する2つの関数である幾何移動と向き制御を絡み合わせることが明らかとなった。
ROAR-3Dは、事前学習された単一ビューモデルをアップグレードして任意の数の未提示画像を受け入れる軽量な手法である。
トークンワイドビュールータは、各3D潜在トークンを最も関連性の高いビューに割り当て、明示的なポーズ入力なしで2Dから3D対応を暗黙的に確立する。
デュアルストリームアテンション設計は、幾何学的な豊かさに特化した別々の経路を通して補助的なビューをルーティングしながら、事前訓練された一次ビューの挙動を保存する。
配向摂動戦略は、補助経路が配向非依存の幾何移動を学ぶことを確実にする。
これらのコンポーネントは、最小限のトレーニング可能なパラメータを導入し、シングルビューベースラインに対して無視可能な推論オーバーヘッドを追加する。
ROAR-3Dは最先端のマルチビュー3D生成品質を実現し、一貫した改善で1から12ビュー以上のテストタイムビュースケーリングをサポートする。
関連論文リスト
- Geometrically Consistent Multi-View Scene Generation from Freehand Sketches [58.98194920417429]
フリーハンドスケッチは、マルチビュージェネレータを提供することができる最も幾何学的に不十分な入力である。
学習データの欠如、歪んだ2次元入力からの幾何学的推論の必要性、ビュー間の整合性という3つの複合的な課題に対処する。
本フレームワークは,参照画像,反復的精細化,シーンごとの最適化を必要とせず,単一のデノナイジングプロセスですべてのビューを合成する。
論文 参考訳(メタデータ) (2026-04-15T18:00:45Z) - Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors [61.34273238077091]
本稿では,物体の単一画像からオービタルビデオを生成する新しい手法を提案する。
本手法は,最先端の手法と比較して,視覚的品質,形状リアリズム,多視点整合性を実現している。
論文 参考訳(メタデータ) (2026-04-14T05:35:46Z) - Learning 3D Representations for Spatial Intelligence from Unposed Multi-View Images [81.94999489820974]
UniSplat (UniSplat) は、未提示のマルチビュー画像から3D表現を学習するためのフィードフォワードフレームワークである。
エンコーダにおける幾何誘導を強化するデュアルマスキング戦略を導入する。
第2に,外見のセマンティックな矛盾を解消する粗大なガウス的スプレイティング戦略を開発する。
第3に、予測された3次元点と意味マップを画像平面に相互に関連付ける、ポーズ条件の補正機構を導入する。
論文 参考訳(メタデータ) (2026-04-12T10:36:18Z) - PercHead: Perceptual Head Model for Single-Image 3D Head Reconstruction & Editing [51.56943889042673]
PercHeadは、シングルイメージの3Dヘッド再構成とセマンティック3D編集のための方法である。
単一の入力画像からビュー一貫性を持つ3Dヘッドを再構成するための統一ベースモデルを開発する。
軽量でインタラクティブなGUIを通して、直感的で強力な3D編集機能を強調します。
論文 参考訳(メタデータ) (2025-11-04T17:59:15Z) - G-NeRF: Geometry-enhanced Novel View Synthesis from Single-View Images [45.66479596827045]
我々は,幾何誘導多視点合成手法により,幾何先行性を高めるための幾何強調型NeRF(G-NeRF)を提案する。
単一視点画像に対する多視点監視の欠如に対処するために,深度認識型トレーニングアプローチを設計する。
論文 参考訳(メタデータ) (2024-04-11T04:58:18Z) - Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models [16.326276673056334]
Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。
我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。
本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:57Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - From Image Collections to Point Clouds with Self-supervised Shape and
Pose Networks [53.71440550507745]
2次元画像から3Dモデルを再構成することは、コンピュータビジョンの基本的な問題の一つである。
本研究では,1枚の画像から3次元オブジェクトを再構成する深層学習手法を提案する。
我々は,3次元点雲の再構成と推定ネットワークの自己教師方式の両方を学習する。
論文 参考訳(メタデータ) (2020-05-05T04:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。