Fugu-MT 論文翻訳(概要): Preference Score Distillation: Leveraging 2D Rewards to Align Text-to-3D Generation with Human Preference

論文の概要: Preference Score Distillation: Leveraging 2D Rewards to Align Text-to-3D Generation with Human Preference

arxiv url: http://arxiv.org/abs/2603.01594v1
Date: Mon, 02 Mar 2026 08:23:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.763559
Title: Preference Score Distillation: Leveraging 2D Rewards to Align Text-to-3D Generation with Human Preference
Title（参考訳）: 選好スコア蒸留:人間の選好によるテキスト・ツー・3D生成への2次元報酬の活用
Authors: Jiaqi Leng, Shuyuan Tu, Haidong Cao, Sicheng Xie, Daoguo Dong, Zuxuan Wu, Yu-Gang Jiang,
Abstract要約: Preference Score Distillation (PSD) は、3Dトレーニングデータなしでテキストから3D合成を行うための最適化ベースのフレームワークである。我々の重要な洞察は、ピクセルレベルの勾配の不整合性に起因している。我々は、好みスコアと負のテキスト埋め込みを協調最適化するための適応戦略を導入する。
参考スコア（独自算出の注目度）: 69.34278282513593
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human preference alignment presents a critical yet underexplored challenge for diffusion models in text-to-3D generation. Existing solutions typically require task-specific fine-tuning, posing significant hurdles in data-scarce 3D domains. To address this, we propose Preference Score Distillation (PSD), an optimization-based framework that leverages pretrained 2D reward models for human-aligned text-to-3D synthesis without 3D training data. Our key insight stems from the incompatibility of pixel-level gradients: due to the absence of noisy samples during reward model training, direct application of 2D reward gradients disturbs the denoising process. Noticing that similar issue occurs in the naive classifier guidance in conditioned diffusion models, we fundamentally rethink preference alignment as a classifier-free guidance (CFG)-style mechanism through our implicit reward model. Furthermore, recognizing that frozen pretrained diffusion models constrain performance, we introduce an adaptive strategy to co-optimize preference scores and negative text embeddings. By incorporating CFG during optimization, online refinement of negative text embeddings dynamically enhances alignment. To our knowledge, we are the first to bridge human preference alignment with CFG theory under score distillation framework. Experiments demonstrate the superiority of PSD in aesthetic metrics, seamless integration with diverse pipelines, and strong extensibility.
Abstract（参考訳）: 人間の嗜好のアライメントは、テキストから3D生成における拡散モデルにとって重要な課題である。既存のソリューションは通常、タスク固有の微調整を必要とし、データスカース3Dドメインにおいて大きなハードルとなる。そこで本研究では, 事前学習した2次元報酬モデルを利用して, 3次元のトレーニングデータなしでテキストから3次元の合成を行うためのフレームワークであるPreference Score Distillation (PSD)を提案する。我々の重要な洞察は、画素レベルの勾配の不整合性から来ており、報酬モデルトレーニング中にノイズのあるサンプルが存在しないため、2D報酬勾配の直接適用はノイズ発生過程を妨害する。条件付き拡散モデルにおいて、ナイーブな分類器誘導に類似した問題が生じることに気付き、我々の暗黙の報酬モデルを通して、分類器なし誘導(CFG)スタイルのメカニズムとしての選好アライメントを根本的に再考する。さらに、凍結した事前学習拡散モデルが性能を制約していることを認識し、選好スコアと負のテキスト埋め込みを協調最適化する適応戦略を導入する。最適化中にCFGを組み込むことで、負のテキスト埋め込みのオンライン改善により、動的にアライメントが向上する。我々の知る限り、我々は、スコア蒸留の枠組みの下でCFG理論と人間の嗜好の整合性を橋渡しする最初の人物である。実験では、美的メトリクスにおけるPSDの優位性、多様なパイプラインとのシームレスな統合、強力な拡張性を示す。

関連論文リスト

UniC-Lift: Unified 3D Instance Segmentation via Contrastive Learning [6.502142457981839]
3D Gaussian Splatting (3DGS) と Neural Radiance Fields (NeRF) は、先進的な新規なビュー合成を行っている。近年の手法では,多視点2Dセグメンテーションを3Dに拡張し,シーン理解を向上するインスタンス/セグメンテーションを実現している。主な課題は、ビュー間の2Dインスタンスラベルの不整合である。本稿では,これらのステップをマージし,トレーニング時間を短縮し,ガウスプリミティブにセグメンテーションを組み込む学習可能な機能を導入することにより,パフォーマンスを向上させる統一フレームワークを提案する。
論文参考訳（メタデータ） (2025-12-31T10:20:01Z)
Advancing Text-to-3D Generation with Linearized Lookahead Variational Score Distillation [10.863222482923605]
スコア蒸留モデルの線形化変種を提案し,L2$-VSDによるライナライズドルックアヘッド変量スコア蒸留(L2$-VSD)を提案する。 L2$-VSDは、既存のディープラーニングライブラリの前方モードのオートディフ機能で効率的に実現できる。また,本手法を他のVSDベースのテキスト・ツー・3Dフレームワークにシームレスに組み込むことができることを示す。
論文参考訳（メタデータ） (2025-07-13T18:57:45Z)
Learning to Align and Refine: A Foundation-to-Diffusion Framework for Occlusion-Robust Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置が原因で、永続的な課題に直面している。既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。本稿では,視覚基礎モデルからの2次元事前ガイダンスを正確に整合させる2段階のファンデーション・ツー・ディフュージョンフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-22T14:42:27Z)
Adapting Human Mesh Recovery with Vision-Language Feedback [17.253535686451897]
視覚言語モデルを用いて対話的な身体部分記述を生成する。我々はテキストエンコーダとポーズVQ-VAEをトレーニングし、テキストを共有潜在空間内のボディポーズにアライメントする。モデルは正確な3D知覚と画像の一貫性を持ったポーズを生成することができる。
論文参考訳（メタデータ） (2025-02-06T07:42:00Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文参考訳（メタデータ） (2023-12-28T14:52:07Z)
Efficient Text-Guided 3D-Aware Portrait Generation with Score Distillation Sampling on Distribution [28.526714129927093]
本研究では,DreamPortraitを提案する。DreamPortraitは,テキスト誘導型3D画像の単一フォワードパスで効率よく作成することを目的としている。さらに,テキストと3D認識空間の対応をモデルが明示的に知覚できるように,3D対応のゲート・アテンション機構を設計する。
論文参考訳（メタデータ） (2023-06-03T11:08:38Z)
HiFA: High-fidelity Text-to-3D Generation with Advanced Diffusion Guidance [19.252300247300145]
本研究は,高品質なテキスト・ツー・3D生成を実現するための全体的サンプリングと平滑化手法を提案する。テキスト・画像拡散モデルの潜時空間と画像空間における復調スコアを計算する。単一段最適化において高品質なレンダリングを生成するため,我々はNeRF線に沿ったz座標の分散の正則化を提案する。
論文参考訳（メタデータ） (2023-05-30T05:56:58Z)
Learned Vertex Descent: A New Direction for 3D Human Model Fitting [64.04726230507258]
画像やスキャンに適合する3次元人体モデルのための新しい最適化手法を提案する。われわれのアプローチは、非常に異なる体型を持つ服を着た人々の基盤となる身体を捉えることができ、最先端技術と比べて大きな改善を達成できる。 LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAに大きな改善が示される。
論文参考訳（メタデータ） (2022-05-12T17:55:51Z)
Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2022-03-29T07:14:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。