論文の概要: Nabla-R2D3: Effective and Efficient 3D Diffusion Alignment with 2D Rewards
- arxiv url: http://arxiv.org/abs/2506.15684v1
- Date: Wed, 18 Jun 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.785907
- Title: Nabla-R2D3: Effective and Efficient 3D Diffusion Alignment with 2D Rewards
- Title(参考訳): Nabla-R2D3:2次元逆流を伴う有効かつ効率的な3次元拡散アライメント
- Authors: Qingming Liu, Zhen Liu, Dinghuai Zhang, Kui Jia,
- Abstract要約: Nabla-R2D3は、2D報酬を用いた3Dネイティブ拡散モデルの強化学習フレームワークである。
我々の実験では、バニラファインチュニングベースラインが収束に苦しむか、報酬のハッキングに苦しむのと異なり、Nabla-R2D3は一貫してより高い報酬を達成し、いくつかの微調整ステップで事前の忘れを減らしている。
- 参考スコア(独自算出の注目度): 50.11670979234838
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Generating high-quality and photorealistic 3D assets remains a longstanding challenge in 3D vision and computer graphics. Although state-of-the-art generative models, such as diffusion models, have made significant progress in 3D generation, they often fall short of human-designed content due to limited ability to follow instructions, align with human preferences, or produce realistic textures, geometries, and physical attributes. In this paper, we introduce Nabla-R2D3, a highly effective and sample-efficient reinforcement learning alignment framework for 3D-native diffusion models using 2D rewards. Built upon the recently proposed Nabla-GFlowNet method, which matches the score function to reward gradients in a principled manner for reward finetuning, our Nabla-R2D3 enables effective adaptation of 3D diffusion models using only 2D reward signals. Extensive experiments show that, unlike vanilla finetuning baselines which either struggle to converge or suffer from reward hacking, Nabla-R2D3 consistently achieves higher rewards and reduced prior forgetting within a few finetuning steps.
- Abstract(参考訳): 高品質でフォトリアリスティックな3Dアセットを生成することは、3Dビジョンとコンピュータグラフィックスにおける長年の課題である。
拡散モデルのような最先端の生成モデルは、3D生成において顕著な進歩を遂げてきたが、指示に従う能力や人間の好みに合わせたり、現実的なテクスチャ、ジオメトリー、物理的属性を作り出す能力に制限があるため、人間のデザインされたコンテンツに欠けることが多い。
本稿では,2次元報酬を用いた3次元拡散モデルのための高効率かつ高効率な強化学習アライメントフレームワークであるNabla-R2D3を紹介する。
最近提案したNabla-GFlowNet法は,2次元報酬信号のみを用いた3次元拡散モデルの有効適応を可能にする。
大規模な実験では、バニラ微調整ベースラインが収束に苦しむか、報酬のハッキングに苦しむのと異なり、Nabla-R2D3は一貫してより高い報酬を達成し、いくつかの微調整ステップで事前の忘れを減らしている。
関連論文リスト
- Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation [66.75243908044538]
我々は,事前学習した2次元拡散モデルを用いたガウススプラット上での3次元直接生成手法であるZero-1-to-Gを導入する。
3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。
これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
論文 参考訳(メタデータ) (2025-01-09T18:37:35Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - TextMesh: Generation of Realistic 3D Meshes From Text Prompts [56.2832907275291]
リアルな3Dメッシュを生成するための新しい手法を提案する。
この目的のために、NeRFをSDFバックボーンに拡張し、3Dメッシュ抽出を改善した。
論文 参考訳(メタデータ) (2023-04-24T20:29:41Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D
Generation [39.50894560861625]
3DFuseは、事前訓練された2D拡散モデルに3D認識を組み込む新しいフレームワークである。
本研究では,2次元拡散モデルを用いて,粗い3次元構造内の誤差や空間の分散を学習し,ロバストな生成を可能にするトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T14:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。