Fugu-MT 論文翻訳(概要): Prioritize Denoising Steps on Diffusion Model Preference Alignment via Explicit Denoised Distribution Estimation

論文の概要: Prioritize Denoising Steps on Diffusion Model Preference Alignment via Explicit Denoised Distribution Estimation

arxiv url: http://arxiv.org/abs/2411.14871v1
Date: Fri, 22 Nov 2024 11:45:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.150701
Title: Prioritize Denoising Steps on Diffusion Model Preference Alignment via Explicit Denoised Distribution Estimation
Title（参考訳）: 明示的離散分布推定による拡散モデル選好アライメントの優先順位決定ステップ
Authors: Dingyuan Shi, Yong Wang, Hangyu Li, Xiangxiang Chu,
Abstract要約: 本稿では,信用割当の新しい手法であるDenoized Distribution Estimation (DDE)を提案する。 DDEは、各ステップの観点から、端末の復号化分布を直接推定する。 2つの推定戦略を備え、1つのモデル推論で全聴覚軌跡を表現できる。
参考スコア（独自算出の注目度）: 18.295352638247362
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have shown remarkable success in text-to-image generation, making alignment methods for these models increasingly important. A key challenge is the sparsity of preference labels, which are typically available only at the terminal of denoising trajectories. This raises the issue of how to assign credit across denoising steps based on these sparse labels. In this paper, we propose Denoised Distribution Estimation (DDE), a novel method for credit assignment. Unlike previous approaches that rely on auxiliary models or hand-crafted schemes, DDE derives its strategy more explicitly. The proposed DDE directly estimates the terminal denoised distribution from the perspective of each step. It is equipped with two estimation strategies and capable of representing the entire denoising trajectory with a single model inference. Theoretically and empirically, we show that DDE prioritizes optimizing the middle part of the denoising trajectory, resulting in a novel and effective credit assignment scheme. Extensive experiments demonstrate that our approach achieves superior performance, both quantitatively and qualitatively.
Abstract（参考訳）: 拡散モデルはテキスト・画像生成において顕著な成功を収めており、これらのモデルのアライメント手法がますます重要になっている。重要な課題は選好ラベルの幅であり、通常は軌道を飾る終端でのみ利用可能である。これにより、これらのスパースラベルに基づいてデノイングステップをまたいでクレジットを割り当てる方法が問題になる。本稿では,クレジット代入の新しい手法であるDenoized Distribution Estimation (DDE)を提案する。補助モデルや手作りのスキームに依存する従来のアプローチとは異なり、DDEは戦略をより明確に導いている。提案したDDEは,各ステップの観点から直接,端末の復号化分布を推定する。 2つの推定戦略を備え、1つのモデル推論で全聴覚軌跡を表現できる。理論的かつ実証的に、DDEは認知軌道の中間部分の最適化を優先し、新しい効果的な信用割当方式をもたらすことを示す。大規模実験により,本手法は定量的かつ定性的に優れた性能を発揮することが示された。

関連論文リスト

DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment [49.45064510462232]
テキスト・画像生成のためのGRPOベースのアプローチは、スパース報酬問題に悩まされる。 textbfDenseGRPOは、人間の好みと深い報酬を一致させる新しいフレームワークである。
論文参考訳（メタデータ） (2026-01-28T03:39:05Z)
From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。 LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文参考訳（メタデータ） (2025-10-06T17:58:01Z)
Beyond Scores: Proximal Diffusion Models [10.27283386401996]
対数密度の近似演算子を学習するために, 近似拡散モデル (ProxDM) を開発した。 ProxDMの2つの変種は,従来のスコアマッチング法と比較して,わずか数ステップで大幅に高速化された。
論文参考訳（メタデータ） (2025-07-11T18:30:09Z)
Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。 DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文参考訳（メタデータ） (2025-07-10T07:57:30Z)
Aligning Latent Spaces with Flow Priors [72.24305287508474]
本稿では,学習可能な潜在空間を任意の目標分布に整合させるための新しいフレームワークを提案する。特に,提案手法は計算コストの高い確率評価を排除し,最適化時のODE解決を回避する。
論文参考訳（メタデータ） (2025-06-05T16:59:53Z)
Importance Weighted Score Matching for Diffusion Samplers with Enhanced Mode Coverage [16.94974733994214]
一般的な手法では、逆KLベースの目的を最適化することで、ターゲットデータの欠如を回避できることが多い。そこで本研究では,KLの分岐に類似した目的を直接ターゲットとした拡散型サンプリング器の訓練手法を提案する。我々のアプローチは、すべての分布距離のメトリクスで既存のニューラルサンプリングよりも一貫して優れています。
論文参考訳（メタデータ） (2025-05-26T02:48:26Z)
Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文参考訳（メタデータ） (2025-05-21T07:16:44Z)
InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.823734370183482]
拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文参考訳（メタデータ） (2025-03-24T08:58:49Z)
Preference-Based Alignment of Discrete Diffusion Models [14.874943508610857]
連続時間マルコフ連鎖として定式化された離散拡散モデルに対する直接選好最適化(DPO)の最初の適応である離散拡散DPO(D2-DPO)を導入する。提案手法は, 参照分布に忠実さを保ちつつ, 選好データを用いて生成過程を直接微調整する新規な損失関数を導出する。以上の結果から,D2-DPOは明示的な報酬モデルを必要としない制御された微調整が可能であり,強化学習によるアプローチの代替となることが示唆された。
論文参考訳（メタデータ） (2025-03-11T11:07:35Z)
A First-order Generative Bilevel Optimization Framework for Diffusion Models [57.40597004445473]
拡散モデルは、データサンプルを反復的に分解して高品質な出力を合成する。従来の二値法は無限次元の確率空間と禁制的なサンプリングコストのために失敗する。我々はこの問題を生成的二段階最適化問題として定式化する。従来の2段階法と拡散過程の非互換性を克服する。
論文参考訳（メタデータ） (2025-02-12T21:44:06Z)
Direct Distributional Optimization for Provable Alignment of Diffusion Models [39.048284342436666]
分布最適化の観点から拡散モデルの新しいアライメント手法を提案する。まず、確率分布に対する一般正規化損失最小化として問題を定式化する。本研究では,Doob の $h$-transform 技術を用いてスコア関数を近似することにより,学習した分布からのサンプリングを可能にする。
論文参考訳（メタデータ） (2025-02-05T07:35:15Z)
Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。 CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文参考訳（メタデータ） (2025-02-04T18:59:23Z)
Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文参考訳（メタデータ） (2025-02-01T16:08:43Z)
Aligning Few-Step Diffusion Models with Dense Reward Difference Learning [81.85515625591884]
Stepwise Diffusion Policy Optimization (SDPO) は、数ステップの拡散モデルに適したアライメント手法である。 SDPOは、すべての中間ステップに密集した報酬フィードバックを組み込んで、すべてのデノナイジングステップを一貫したアライメントを確保する。 SDPOは、様々なステップ構成にまたがる報酬ベースのアライメントにおいて、従来手法よりも一貫して優れています。
論文参考訳（メタデータ） (2024-11-18T16:57:41Z)
Simultaneous Reward Distillation and Preference Learning: Get You a Language Model Who Can Do Both [6.102274021710727]
ダイレクトリワード蒸留とポリシー最適化(DRDO)は、知識蒸留に基づく選好アライメント手法である。 DRDOは、新規な嗜好確率の定式化から人間の嗜好を学習しながら、託宣によって割り当てられた報酬を直接模倣する。 Ultrafeedback と TL;DR データセットに関する実験結果から,DRDO を用いてトレーニングしたポリシーが従来の手法より優れていることが示された。
論文参考訳（メタデータ） (2024-10-11T02:19:11Z)
Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文参考訳（メタデータ） (2024-10-08T07:33:49Z)
Inference-Time Alignment of Diffusion Models with Direct Noise Optimization [45.77751895345154]
拡散モデルのサンプリング過程において, 直接雑音最適化 (DNO) と呼ばれる新しいアライメント手法を提案する。設計上、DNOは推論時に動作し、チューニングが不要で、即席で、アライメントは世代毎にオンラインに行われる。我々は,いくつかの重要な報酬関数について広範な実験を行い,提案したDNOアプローチが,適切な時間予算で,最先端の報酬スコアを達成できることを実証した。
論文参考訳（メタデータ） (2024-05-29T08:39:39Z)
Modeling Pedestrian Intrinsic Uncertainty for Multimodal Stochastic Trajectory Prediction via Energy Plan Denoising [25.763865805257634]
軌道予測のためのエネルギー計画デノイング(EPD)モデルを提案する。 EPDは反復的なステップの必要性を減らし、効率を向上する。 2つの公開データセットでEPDを検証することで、最先端の結果が得られます。
論文参考訳（メタデータ） (2024-05-12T05:11:23Z)
Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文参考訳（メタデータ） (2023-11-30T18:59:44Z)
DF2: Distribution-Free Decision-Focused Learning [53.2476224456902]
決定中心学習(DFL)は近年,予測最適化問題に対する強力なアプローチとして出現している。既存のエンドツーエンドDFL法は、モデル誤差、サンプル平均近似誤差、予測対象の分布に基づくパラメータ化の3つの重大なボトルネックによって妨げられている。 DF2は,これら3つのボトルネックに明示的に対処するために設計された,初となるテキストフリーな意思決定型学習手法である。
論文参考訳（メタデータ） (2023-08-11T00:44:46Z)
Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-21T18:49:22Z)
Differentiating Metropolis-Hastings to Optimize Intractable Densities [51.16801956665228]
我々はメトロポリス・ハスティングス検層の自動識別アルゴリズムを開発した。難解な対象密度に対する期待値として表現された目的に対して勾配に基づく最適化を適用する。
論文参考訳（メタデータ） (2023-06-13T17:56:02Z)
Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文参考訳（メタデータ） (2023-04-22T15:32:59Z)
Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文参考訳（メタデータ） (2023-02-22T14:50:24Z)
Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文参考訳（メタデータ） (2021-12-15T01:45:32Z)
Towards Debiasing NLU Models from Unknown Biases [70.31427277842239]
NLUモデルは、しばしばバイアスを利用して、意図したタスクを適切に学習することなく、データセット固有の高いパフォーマンスを達成する。本稿では、モデルがバイアスを事前に知ることなく、主にバイアスを利用するのを防ぐ自己バイアスフレームワークを提案する。
論文参考訳（メタデータ） (2020-09-25T15:49:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。