論文の概要: DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2502.04370v1
- Date: Wed, 05 Feb 2025 11:03:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:57:27.540591
- Title: DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization
- Title(参考訳): DreamDPO: 直接選好最適化による人選好によるテキスト・ツー・3D生成の調整
- Authors: Zhenglin Zhou, Xiaobo Xia, Fan Ma, Hehe Fan, Yi Yang, Tat-Seng Chua,
- Abstract要約: 人間の好みを3D生成プロセスに統合する最適化ベースのフレームワークであるDreamDPOを提案する。
DreamDPOは、きめ細かい制御性を実現しながら、正確なポイントワイドの品質評価への依存を減らす。
実験により、DreamDPOは競争力を発揮し、高品質で制御可能な3Dコンテンツを提供することが示された。
- 参考スコア(独自算出の注目度): 75.55167570591063
- License:
- Abstract: Text-to-3D generation automates 3D content creation from textual descriptions, which offers transformative potential across various fields. However, existing methods often struggle to align generated content with human preferences, limiting their applicability and flexibility. To address these limitations, in this paper, we propose DreamDPO, an optimization-based framework that integrates human preferences into the 3D generation process, through direct preference optimization. Practically, DreamDPO first constructs pairwise examples, then compare their alignment with human preferences using reward or large multimodal models, and lastly optimizes the 3D representation with a preference-driven loss function. By leveraging pairwise comparison to reflect preferences, DreamDPO reduces reliance on precise pointwise quality evaluations while enabling fine-grained controllability through preference-guided optimization. Experiments demonstrate that DreamDPO achieves competitive results, and provides higher-quality and more controllable 3D content compared to existing methods. The code and models will be open-sourced.
- Abstract(参考訳): Text-to-3D 生成はテキスト記述から3Dコンテンツを生成する。
しかし、既存の方法は、生成されたコンテンツを人間の好みに合わせるのに苦労し、適用性と柔軟性を制限します。
本稿では,人間の嗜好を3次元生成プロセスに統合し,直接選好を最適化するフレームワークであるDreamDPOを提案する。
実際にDreamDPOは、まずペアワイズな例を構築し、次に報酬モデルや大規模なマルチモーダルモデルを用いて人間の好みとアライメントを比較し、最後に、好み駆動の損失関数で3D表現を最適化する。
ペアワイズ比較を利用して選好を反映することにより、DreamDPOは、選好誘導最適化によるきめ細かい制御性を可能とし、正確なポイントワイズ品質評価への依存を減らす。
実験の結果,DreamDPOは既存の手法に比べて高品質でコントロール可能な3Dコンテンツを提供することがわかった。
コードとモデルはオープンソースになる。
関連論文リスト
- IPO: Iterative Preference Optimization for Text-to-Video Generation [15.763879468841818]
人間のフィードバックを取り入れて生成した映像の質を高めるための反復選好最適化手法を提案する。
IPOは、直接選好最適化(Direct Preference Optimization)やポイントワイズスコア(point-wise score)のように、ビデオ世代をペアワイズランキングで正当化する批判モデルを活用する。
さらに、IPOは批判モデルにマルチモダリティの大規模言語モデルを導入し、リトレーニングや緩和を必要とせず、自動的に好みラベルを割り当てることを可能にする。
論文 参考訳(メタデータ) (2025-02-04T08:14:34Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - VideoDPO: Omni-Preference Alignment for Video Diffusion Generation [48.36302380755874]
DPO(Direct Preference Optimization)は、言語と画像生成において大幅に改善されている。
本稿では,いくつかの重要な調整を施したビデオDPOパイプラインを提案する。
本実験は視覚的品質とセマンティックアライメントの両面で大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2024-12-18T18:59:49Z) - Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Efficient Text-Guided 3D-Aware Portrait Generation with Score
Distillation Sampling on Distribution [28.526714129927093]
本研究では,DreamPortraitを提案する。DreamPortraitは,テキスト誘導型3D画像の単一フォワードパスで効率よく作成することを目的としている。
さらに,テキストと3D認識空間の対応をモデルが明示的に知覚できるように,3D対応のゲート・アテンション機構を設計する。
論文 参考訳(メタデータ) (2023-06-03T11:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。