論文の概要: DreamReward: Text-to-3D Generation with Human Preference
- arxiv url: http://arxiv.org/abs/2403.14613v1
- Date: Thu, 21 Mar 2024 17:58:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 13:10:20.562186
- Title: DreamReward: Text-to-3D Generation with Human Preference
- Title(参考訳): DreamReward: 人選好によるテキストから3D生成
- Authors: Junliang Ye, Fangfu Liu, Qixiu Li, Zhengyi Wang, Yikai Wang, Xinzhou Wang, Yueqi Duan, Jun Zhu,
- Abstract要約: 本研究では,人間の嗜好フィードバックからテキスト・ツー・3Dモデルを学習し,改良するための包括的フレームワークDreamRewardを提案する。
Reward3D - 最初の汎用テキストから3Dの人間の嗜好報酬モデルを構築する。
本研究は,テキスト・ツー・3Dモデルを改善するために,人間のフィードバックから学習する大きな可能性を実証するものである。
- 参考スコア(独自算出の注目度): 26.766632087231805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D content creation from text prompts has shown remarkable success recently. However, current text-to-3D methods often generate 3D results that do not align well with human preferences. In this paper, we present a comprehensive framework, coined DreamReward, to learn and improve text-to-3D models from human preference feedback. To begin with, we collect 25k expert comparisons based on a systematic annotation pipeline including rating and ranking. Then, we build Reward3D -- the first general-purpose text-to-3D human preference reward model to effectively encode human preferences. Building upon the 3D reward model, we finally perform theoretical analysis and present the Reward3D Feedback Learning (DreamFL), a direct tuning algorithm to optimize the multi-view diffusion models with a redefined scorer. Grounded by theoretical proof and extensive experiment comparisons, our DreamReward successfully generates high-fidelity and 3D consistent results with significant boosts in prompt alignment with human intention. Our results demonstrate the great potential for learning from human feedback to improve text-to-3D models.
- Abstract(参考訳): テキストプロンプトによる3Dコンテンツ作成は、最近目覚ましい成功を収めた。
しかし、現在のテキストから3Dの手法は、人間の好みとうまく一致しない3D結果を生成することが多い。
本稿では,人間の嗜好フィードバックからテキスト・ツー・3Dモデルを学習し,改良するための包括的フレームワークDreamRewardを提案する。
まず、評価とランキングを含む体系的なアノテーションパイプラインに基づいて、25kのエキスパート比較を収集する。
そして、人間の嗜好を効果的にエンコードするために、最初の汎用テキストから3Dの人間選好報酬モデルであるReward3Dを構築する。
3D報酬モデルを構築し、最終的に理論解析を行い、再定義スコアを用いた多視点拡散モデルの最適化を行う直接チューニングアルゴリズムであるReward3D Feedback Learning(DreamFL)を提示する。
我々のDreamRewardは、理論的な証明と広範囲な実験比較によって、人間の意図と迅速に一致して、高い忠実度と3D一貫性のある結果を生み出すことに成功した。
本研究は,テキスト・ツー・3Dモデルを改善するために,人間のフィードバックから学習する大きな可能性を実証するものである。
関連論文リスト
- The More You See in 2D, the More You Perceive in 3D [32.578628729549145]
SAP3Dは、任意の数の未提示画像から3D再構成と新しいビュー合成を行うシステムである。
入力画像の数が増えるにつれて,提案手法の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:40Z) - VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation [96.62867261689037]
視覚プロンプト誘導型3次元拡散モデル(VP3D)を提案する。
VP3Dは、テキストから3D生成を促進するために、2D視覚プロンプトの視覚的外観知識を明示的に解放する。
実験の結果,VP3Dの2次元視覚プロンプトは3次元モデルの視覚的外観の学習を著しく容易にすることがわかった。
論文 参考訳(メタデータ) (2024-03-25T17:59:31Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - TPA3D: Triplane Attention for Fast Text-to-3D Generation [28.33270078863519]
テキスト誘導型3次元生成(TPA3D)のためのトライプレーンアテンションを提案する。
TPA3Dは、高速テキストから3D生成のための、エンドツーエンドのトレーニング可能なGANベースのディープラーニングモデルである。
TPA3Dは, きめ細かい記述と整合した高品質な3次元テクスチャ形状を生成する。
論文 参考訳(メタデータ) (2023-12-05T10:39:37Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Get3DHuman: Lifting StyleGAN-Human into a 3D Generative Model using
Pixel-aligned Reconstruction Priors [56.192682114114724]
Get3DHumanは、生成された結果のリアリズムと多様性を大幅に向上させる、新しい3Dヒューマンフレームワークである。
我々のキーとなる観察は、この3Dジェネレータは、人間の2Dジェネレータと3Dコンストラクタを通して学んだ、人間関係の先行技術から利益を得ることができるということだ。
論文 参考訳(メタデータ) (2023-02-02T15:37:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。