論文の概要: Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning
- arxiv url: http://arxiv.org/abs/2605.13852v1
- Date: Wed, 25 Mar 2026 11:30:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.805131
- Title: Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning
- Title(参考訳): Realiz3D:ドメイン認識学習によるフォトリアリスティックな3D生成
- Authors: Ido Sobol, Kihyuk Sohn, Yoav Blum, Egor Zakharov, Max Bluvstein, Andrea Vedaldi, Or Litany,
- Abstract要約: Realiz3Dは、フォトリアリスティックと3D一貫性の両方を持つ3Dベースの画像を生成するためのフレームワークである。
本稿では,Realiz3Dが画像生成装置の微調整によって実現した制御信号の意図しない存在を緩和する方法を示す。
また、制御が適用された場合でも、モデルがどのようにリアルな画像を生成するかを示す。
- 参考スコア(独自算出の注目度): 60.27167498639778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We often aim to generate images that are both photorealistic and 3D-consistent, adhering to precise geometry, material, and viewpoint controls. Typically, this is achieved by fine-tuning an image generator, pre-trained on billions of real images, using renders of synthetic 3D assets, where annotations for control signals are available. While this approach can learn the desired controls, it often compromises the realism of the images due to domain gap between photographs and renders. We observe that this issue largely arises from the model learning an unintended association between the presence of control signals and the synthetic appearance of the images. To address this, we introduce Realiz3D, a lightweight framework for training diffusion models, that decouples controls and visual domain. The key idea is to explicitly learn visual domain, real or synthetic, separately from other control signals by introducing a co-variate that, fed into small residual adapters, shifts the domain. Then, the generator can be trained to gain controllability, without fitting to specific visual domain. In this way, the model can be guided to produce realistic images even when controls are applied. We enhance control transferability to the real domain by leveraging insights about roles of different layers and denoising steps in diffusion-based generators, informing new training and inference strategies that further mitigate the gap. We demonstrate the advantages of Realiz3D in tasks as text-to-multiview generation and texturing from 3D inputs, producing outputs that are 3D-consistent and photorealistic.
- Abstract(参考訳): 私たちはしばしば、精密な幾何学、材料、視点制御に固執して、フォトリアリスティックかつ3D一貫性のある画像を生成することを目指しています。
通常、これは、何十億もの実際の画像に基づいて事前訓練されたイメージジェネレータを微調整し、合成された3Dアセットのレンダリングを使用して、制御信号のアノテーションが利用できるようにすることで達成される。
このアプローチは所望のコントロールを学習できるが、写真とレンダリングの間の領域ギャップのため、画像のリアリズムを損なうことが多い。
この問題は、制御信号の存在と合成画像の出現との意図しない関係を学習したモデルから大きく生じる。
これを解決するために,拡散モデルをトレーニングするための軽量フレームワークであるRealiz3Dを導入し,制御と視覚領域を分離する。
鍵となるアイデアは、視覚領域、現実または合成的な、他の制御信号とは独立して、小さな残留アダプターに供給される共変量を導入して、ドメインをシフトさせることである。
次に、ジェネレータは特定の視覚領域に適合することなく、制御性を得るために訓練することができる。
このようにして、制御が適用された場合でも、モデルをガイドしてリアルな画像を生成することができる。
我々は、異なる層の役割についての洞察を活用し、拡散型ジェネレータにおけるステップを減らし、ギャップを緩和する新たなトレーニングと推論戦略を通知することで、現実のドメインへの制御伝達性を高める。
本稿では,3次元入力からのテキスト・ツー・マルチビュー生成やテクスチャ作成といったタスクにおけるRealiz3Dの利点を示す。
関連論文リスト
- ViewMorpher3D: A 3D-aware Diffusion Framework for Multi-Camera Novel View Synthesis in Autonomous Driving [20.935790354765604]
画像拡散モデルに基づく多視点画像拡張フレームワークであるViewMorpher3Dを紹介する。
シングルビューのアプローチとは異なり、ViewMorpher3Dはカメラのポーズに条件付けされた一連のレンダリングビュー、幾何学的先行3D、時間的に隣接または空間的に重複する参照ビューを共同で処理する。
我々のフレームワークは、様々なカメラとフレキシブルな参照/ターゲットビュー構成に対応しており、多様なセンサー設定に適応できる。
論文 参考訳(メタデータ) (2026-01-12T13:44:14Z) - Real3D: Scaling Up Large Reconstruction Models with Real-World Images [34.735198125706326]
Real3Dは、シングルビューの現実世界の画像を使ってトレーニングできる最初のLRMシステムである。
我々は,LRMをピクセルレベルで,セマンティックレベルで監視できる2つの教師なし損失を提案する。
In-the-wild画像から高品質なサンプルを収集する自動データキュレーション手法を開発した。
論文 参考訳(メタデータ) (2024-06-12T17:59:08Z) - Text2Control3D: Controllable 3D Avatar Generation in Neural Radiance
Fields using Geometry-Guided Text-to-Image Diffusion Model [39.64952340472541]
本稿では,表情を制御可能な制御可能なテキスト・ツー・3Dアバター生成手法を提案する。
我々の主な戦略は、制御された視点認識画像のセットに最適化されたニューラルラジアンスフィールド(NeRF)における3Dアバターを構築することである。
実験結果を実証し,本手法の有効性について考察する。
論文 参考訳(メタデータ) (2023-09-07T08:14:46Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Unsupervised Learning of Efficient Geometry-Aware Neural Articulated
Representations [89.1388369229542]
本稿では,3次元幾何認識による音声オブジェクトの表現学習のための教師なし手法を提案する。
私たちは、GANトレーニングで表現を学ぶことで、このニーズを回避します。
実験は,本手法の有効性を実証し,GANに基づくトレーニングにより,制御可能な3次元表現を,監督なしで学習できることを示す。
論文 参考訳(メタデータ) (2022-04-19T12:10:18Z) - Image GANs meet Differentiable Rendering for Inverse Graphics and
Interpretable 3D Neural Rendering [101.56891506498755]
異なるレンダリングによって、ニューラルネットワークをトレーニングして"逆グラフィックス"タスクを実行する方法が舗装された。
提案手法は,既存のデータセットでトレーニングした最先端の逆グラフネットワークを著しく上回ることを示す。
論文 参考訳(メタデータ) (2020-10-18T22:29:07Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z) - Learning Neural Light Transport [28.9247002210861]
ニューラルネットワークを用いた静的・動的3次元シーンにおける光輸送の学習手法を提案する。
我々のモデルは静的および動的シーンのフォトリアリスティックなレンダリングを生成することができる。
論文 参考訳(メタデータ) (2020-06-05T13:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。