論文の概要: Reward-Directed Conditional Diffusion: Provable Distribution Estimation
and Reward Improvement
- arxiv url: http://arxiv.org/abs/2307.07055v1
- Date: Thu, 13 Jul 2023 20:20:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 15:30:07.025689
- Title: Reward-Directed Conditional Diffusion: Provable Distribution Estimation
and Reward Improvement
- Title(参考訳): 報酬指向条件拡散:提供可能な分布推定と報酬改善
- Authors: Hui Yuan, Kaixuan Huang, Chengzhuo Ni, Minshuo Chen, Mengdi Wang
- Abstract要約: Directed Generationは、報酬関数によって測定された望ましい特性を持つサンプルを生成することを目的としている。
我々は、データセットがラベルのないデータと、ノイズの多い報酬ラベルを持つ小さなデータセットから構成される一般的な学習シナリオを考察する。
- 参考スコア(独自算出の注目度): 42.45888600367566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the methodology and theory of reward-directed generation via
conditional diffusion models. Directed generation aims to generate samples with
desired properties as measured by a reward function, which has broad
applications in generative AI, reinforcement learning, and computational
biology. We consider the common learning scenario where the data set consists
of unlabeled data along with a smaller set of data with noisy reward labels.
Our approach leverages a learned reward function on the smaller data set as a
pseudolabeler. From a theoretical standpoint, we show that this directed
generator can effectively learn and sample from the reward-conditioned data
distribution. Additionally, our model is capable of recovering the latent
subspace representation of data. Moreover, we establish that the model
generates a new population that moves closer to a user-specified target reward
value, where the optimality gap aligns with the off-policy bandit regret in the
feature subspace. The improvement in rewards obtained is influenced by the
interplay between the strength of the reward signal, the distribution shift,
and the cost of off-support extrapolation. We provide empirical results to
validate our theory and highlight the relationship between the strength of
extrapolation and the quality of generated samples.
- Abstract(参考訳): 条件拡散モデルを用いて報酬指向生成の方法論と理論を考察する。
Directed Generationは、生成AI、強化学習、計算生物学に広く応用されている報酬関数によって測定された望ましい特性を持つサンプルを生成することを目的としている。
我々は、データセットがラベルのないデータと、ノイズの多い報酬ラベルを持つ小さなデータセットから構成される一般的な学習シナリオを考察する。
提案手法では,学習した報酬関数を擬似ラベルとして小さいデータセットに活用する。
理論的な観点からは、この有向発電機は報奨条件データ分布から効果的に学習・サンプルできることを示す。
さらに、我々のモデルはデータの潜在部分空間表現を復元することができる。
さらに,提案モデルでは,目標報酬値に近づき,最適性ギャップが特徴部分空間におけるオフポリティ・バンディットの後悔と整合する新たな集団を生成することを確立する。
得られる報酬の改善は、報酬信号の強度と分布シフトとオフサポート補間コストとの相互作用に影響される。
我々は,我々の理論を検証し,外挿強度と生成試料の品質の関係を明らかにする実験結果を提供する。
関連論文リスト
- A Likelihood Based Approach to Distribution Regression Using Conditional Deep Generative Models [6.647819824559201]
本研究では,条件付き深部生成モデルの推定のための可能性に基づくアプローチの大規模サンプル特性について検討する。
その結果,条件分布を推定するための最大極大推定器の収束率を導いた。
論文 参考訳(メタデータ) (2024-10-02T20:46:21Z) - Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized
Control [54.132297393662654]
拡散モデルは、自然画像やタンパク質のような複雑なデータ分布を捉えるのに優れている。
拡散モデルはトレーニングデータセットの分布を表現するために訓練されるが、私たちはしばしば、生成された画像の美的品質など他の特性にもっと関心を持っている。
本稿では,本フレームワークが真に報酬の高い多種多様なサンプルを効率よく生成できることを示す理論的,実証的な証拠を示す。
論文 参考訳(メタデータ) (2024-02-23T08:54:42Z) - Transductive Reward Inference on Graph [53.003245457089406]
本稿では,グラフ上の情報伝達の文脈特性に基づく報酬推定手法を提案する。
利用可能なデータと限定的な報酬アノテーションの両方を活用して、報酬伝達グラフを構築します。
構築したグラフをトランスダクティブな報酬推定に使用し,非競合データに対する報酬を推定する。
論文 参考訳(メタデータ) (2024-02-06T03:31:28Z) - Fair Sampling in Diffusion Models through Switching Mechanism [5.560136885815622]
本研究では,拡散モデルに対するテクスタトリビュートスイッチング機構という,公平性を考慮したサンプリング手法を提案する。
提案手法の有効性を2つの重要な側面から数学的に証明し,実験的に実証する。
論文 参考訳(メタデータ) (2024-01-06T06:55:26Z) - Generative Causal Representation Learning for Out-of-Distribution Motion
Forecasting [13.99348653165494]
本稿では,分散シフト下での知識伝達を容易にするための生成因果学習表現を提案する。
ヒトの軌道予測モデルにおいて提案手法の有効性を評価する一方、GCRLは他の領域にも適用可能である。
論文 参考訳(メタデータ) (2023-02-17T00:30:44Z) - Breaking the Spurious Causality of Conditional Generation via Fairness
Intervention with Corrective Sampling [77.15766509677348]
条件生成モデルは、トレーニングデータセットから急激な相関を継承することが多い。
これは別の潜在属性に対して不均衡なラベル条件分布をもたらす。
この問題を緩和するための一般的な2段階戦略を提案する。
論文 参考訳(メタデータ) (2022-12-05T08:09:33Z) - Selectively increasing the diversity of GAN-generated samples [8.980453507536017]
本稿では,GAN生成サンプルの多様性を選択的に向上する手法を提案する。
本研究では,CERN における ALICE 実験のZero Degree Calorimeter から得られたデータをシミュレーションする実生活シナリオとともに,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-07-04T16:27:06Z) - Deceive D: Adaptive Pseudo Augmentation for GAN Training with Limited
Data [125.7135706352493]
GAN(Generative Adversarial Network)は、高忠実度画像を合成するために、訓練に十分なデータを必要とする。
近年の研究では、差別者の過度な適合により、限られたデータでGANを訓練することは困難であることが示されている。
本稿では,APA (Adaptive Pseudo Augmentation) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T18:13:45Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。