論文の概要: Text-driven 3D Human Generation via Contrastive Preference Optimization
- arxiv url: http://arxiv.org/abs/2502.08977v3
- Date: Tue, 25 Mar 2025 09:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 20:13:57.170676
- Title: Text-driven 3D Human Generation via Contrastive Preference Optimization
- Title(参考訳): コントラスト的選好最適化によるテキスト駆動型3次元ヒューマンジェネレーション
- Authors: Pengfei Zhou, Xukun Shen, Yong Hu,
- Abstract要約: 本稿では, 肯定的, 否定的両方のプロンプトによって導かれる, コントラスト的嗜好を導入する新しい枠組みを提案する。
本手法はテクスチャリアリズムを著しく向上させ,テクスチャ記述と視覚的アライメントを両立させる。
- 参考スコア(独自算出の注目度): 4.605877205896212
- License:
- Abstract: Recent advances in Score Distillation Sampling (SDS) have improved 3D human generation from textual descriptions. However, existing methods still face challenges in accurately aligning 3D models with long and complex textual inputs. To address this challenge, we propose a novel framework that introduces contrastive preferences, where human-level preference models, guided by both positive and negative prompts, assist SDS for improved alignment. Specifically, we design a preference optimization module that integrates multiple models to comprehensively capture the full range of textual features. Furthermore, we introduce a negation preference module to mitigate over-optimization of irrelevant details by leveraging static-dynamic negation prompts, effectively preventing ``reward hacking". Extensive experiments demonstrate that our method achieves state-of-the-art results, significantly enhancing texture realism and visual alignment with textual descriptions, particularly for long and complex inputs.
- Abstract(参考訳): SDS(Score Distillation Sampling)の最近の進歩は、テキスト記述から3次元人物生成を改善している。
しかし、既存の手法は長く複雑なテキスト入力で3Dモデルを正確に整列させるという課題に直面している。
この課題に対処するために,人間レベルの嗜好モデルに肯定的,否定的の両方のプロンプトを導くことでアライメントを改善するSDSを支援する,コントラスト的嗜好を導入した新しいフレームワークを提案する。
具体的には、複数のモデルを統合し、テキスト機能の全範囲を包括的にキャプチャする優先最適化モジュールを設計する。
さらに,静的なネゲーションプロンプトを活用することにより,非関係な詳細の過度な最適化を緩和し,‘reward hacking’を効果的に防止するネゲーション選好モジュールを導入する。
本手法は,テクスチャリアリズムとテクスチャ記述による視覚的アライメントを,特に長い複雑な入力に対して著しく向上する。
関連論文リスト
- DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization [75.55167570591063]
人間の好みを3D生成プロセスに統合する最適化ベースのフレームワークであるDreamDPOを提案する。
DreamDPOは、きめ細かい制御性を実現しながら、正確なポイントワイドの品質評価への依存を減らす。
実験により、DreamDPOは競争力を発揮し、高品質で制御可能な3Dコンテンツを提供することが示された。
論文 参考訳(メタデータ) (2025-02-05T11:03:08Z) - Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。
本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文 参考訳(メタデータ) (2024-12-03T17:44:23Z) - ModeDreamer: Mode Guiding Score Distillation for Text-to-3D Generation using Reference Image Prompts [15.341857735842954]
ISDと呼ばれる画像プロンプトスコアの蒸留損失を導入し、参照画像を用いてテキストから3Dへの直接最適化を行う。
本実験は, 従来のテキスト・ツー・3D手法と比較して, 視覚的コヒーレントで高品質な出力を実現し, 最適化速度を向上することを示した。
論文 参考訳(メタデータ) (2024-11-27T08:33:42Z) - TV-3DG: Mastering Text-to-3D Customized Generation with Visual Prompt [41.880416357543616]
我々は、スコア蒸留サンプリング(SDS)における差項を除去する新しいアルゴリズム、スコアマッチング(CSM)を提案する。
我々は視覚的プロンプト情報を注意融合機構とサンプリング誘導手法と統合し、Visual Prompt CSMアルゴリズムを構成する。
本手法をTV-3DGとして提示し,安定かつ高品質でカスタマイズされた3D生成を実現するための広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-16T07:13:09Z) - Semantic Score Distillation Sampling for Compositional Text-to-3D Generation [28.88237230872795]
テキスト記述から高品質な3Dアセットを生成することは、コンピュータグラフィックスと視覚研究において重要な課題である。
本稿では,合成テキストから3D生成までの表現性と精度の向上を目的とした新しいSDS手法を提案する。
我々のアプローチは、異なるレンダリングビュー間の一貫性を維持する新しいセマンティック埋め込みを統合する。
明示的な意味指導を活用することで,既存の事前学習拡散モデルの構成能力を解き放つ。
論文 参考訳(メタデータ) (2024-10-11T17:26:00Z) - MVGaussian: High-Fidelity text-to-3D Content Generation with Multi-View Guidance and Surface Densification [13.872254142378772]
本稿では,テキスト・ツー・3Dコンテンツ生成のための統合フレームワークを提案する。
提案手法は3次元モデルの構造を反復的に形成するために多視点誘導を利用する。
また,表面近傍にガウスを配向させる新しい密度化アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-09-10T16:16:34Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Progressive Text-to-3D Generation for Automatic 3D Prototyping [83.33407603057618]
本稿では,MTN(Multi-Scale Triplane Network)と新たなプログレッシブラーニング戦略を提案する。
本実験では,提案手法が既存手法に対して良好に動作することを確認した。
自然言語記述による自動3Dプロトタイピングの道を開くことを目指しています。
論文 参考訳(メタデータ) (2023-09-26T01:08:35Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。