論文の概要: Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation
- arxiv url: http://arxiv.org/abs/2512.10949v1
- Date: Thu, 11 Dec 2025 18:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.574784
- Title: Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation
- Title(参考訳): テキスト・ツー・3次元生成におけるRLの準備はできているか? : 進歩的考察
- Authors: Yiwen Tang, Zoey Guo, Kaixin Zhu, Ray Zhang, Qizhi Chen, Dongzhi Jiang, Junli Liu, Bohan Zeng, Haoming Song, Delin Qu, Tianyi Bai, Dan Xu, Wentao Zhang, Bin Zhao,
- Abstract要約: 強化学習(RL)は2次元画像生成の強化に成功している。
3Dオブジェクトの空間的複雑さが高いため、RLを3D生成に適用することは、ほとんど未解明のままである。
テキストから3次元の自己回帰生成のためのRLの最初の体系的研究を行う。
- 参考スコア(独自算出の注目度): 29.767530820783378
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL), earlier proven to be effective in large language and multi-modal models, has been successfully extended to enhance 2D image generation recently. However, applying RL to 3D generation remains largely unexplored due to the higher spatial complexity of 3D objects, which require globally consistent geometry and fine-grained local textures. This makes 3D generation significantly sensitive to reward designs and RL algorithms. To address these challenges, we conduct the first systematic study of RL for text-to-3D autoregressive generation across several dimensions. (1) Reward designs: We evaluate reward dimensions and model choices, showing that alignment with human preference is crucial, and that general multi-modal models provide robust signal for 3D attributes. (2) RL algorithms: We study GRPO variants, highlighting the effectiveness of token-level optimization, and further investigate the scaling of training data and iterations. (3) Text-to-3D Benchmarks: Since existing benchmarks fail to measure implicit reasoning abilities in 3D generation models, we introduce MME-3DR. (4) Advanced RL paradigms: Motivated by the natural hierarchy of 3D generation, we propose Hi-GRPO, which optimizes the global-to-local hierarchical 3D generation through dedicated reward ensembles. Based on these insights, we develop AR3D-R1, the first RL-enhanced text-to-3D model, expert from coarse shape to texture refinement. We hope this study provides insights into RL-driven reasoning for 3D generation. Code is released at https://github.com/Ivan-Tang-3D/3DGen-R1.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 大規模言語やマルチモーダルモデルにおいて有効であることが証明され, 最近2次元画像生成の強化に成功している。
しかし、RLを3D生成に適用することは、3Dオブジェクトの空間的複雑さがより複雑になるため、大域的に一貫した幾何ときめ細かい局所的なテクスチャを必要とするため、未解明のままである。
これにより、3D生成は報酬設計やRLアルゴリズムに非常に敏感になる。
これらの課題に対処するため,テキストから3次元の自己回帰生成のためのRLの最初の体系的研究を行った。
1)リワードデザイン: 報酬次元とモデル選択を評価し, 人間の嗜好との整合が重要であり, 一般的なマルチモーダルモデルが3次元属性に対してロバストな信号を提供することを示す。
2) RLアルゴリズム: GRPOの変種について検討し、トークンレベルの最適化の有効性を強調し、さらにトレーニングデータと反復のスケーリングについて検討する。
3)テキストから3Dまでのベンチマーク:既存のベンチマークでは3次元生成モデルにおける暗黙的推論能力の測定に失敗するため,MME-3DRを導入する。
(4)先進的なRLパラダイム:3次元生成の自然な階層化に動機づけられたHi-GRPOを提案する。
これらの知見に基づき、粗い形状からテクスチャリファインメントまでを専門とする最初のRL拡張テキスト・ツー・3DモデルであるAR3D-R1を開発した。
この研究は、3D生成のためのRL駆動推論に関する洞察を与えてくれることを願っている。
コードはhttps://github.com/Ivan-Tang-3D/3DGen-R1で公開されている。
関連論文リスト
- End-to-End Fine-Tuning of 3D Texture Generation using Differentiable Rewards [8.953379216683732]
本稿では,人間のフィードバックを3次元テクスチャパイプラインに直接埋め込む,エンドツーエンドの微分可能・強化学習不要なフレームワークを提案する。
幾何学的および外見的モジュールによる好み信号のバックプロパゲーションにより、3次元幾何学的構造を尊重し、所望の基準と整合するテクスチャを生成する。
論文 参考訳(メタデータ) (2025-06-23T06:24:12Z) - TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは、入力画像に正確に対応した高忠実度3Dメッシュを生成することができる新しい合理化形状拡散パラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部が強化され、入力画像に異常な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文 参考訳(メタデータ) (2025-02-10T16:07:54Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - Lift3D: Synthesize 3D Training Data by Lifting 2D GAN to 3D Generative
Radiance Field [16.15190186574068]
データ生成の目的を達成するために,逆2D-to-3D生成フレームワークであるLift3Dを提案する。
2D GANを3DオブジェクトNeRFに持ち上げることで、Lift3Dは生成されたオブジェクトの明示的な3D情報を提供する。
我々は、自律運転データセットを増強することで、我々のフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-07T07:43:02Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。