Fugu-MT 論文翻訳(概要): Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning

論文の概要: Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning

arxiv url: http://arxiv.org/abs/2410.08315v1
Date: Thu, 10 Oct 2024 19:06:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 04:06:19.025416
Title: Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning
Title（参考訳）: 強化学習による拡散モデルにおけるモード崩壊回避
Authors: Roberto Barceló, Cristóbal Alcázar, Felipe Tobar,
Abstract要約: 強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。拡散モデル (DM) の階層的性質を生かし, 各エポックでRL法で動的に訓練する。 HRFで訓練したモデルは、下流タスクにおける多様性の保存性を向上し、微調整の堅牢性を高め、平均報酬を損なうことなく達成できることが示される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning foundation models via reinforcement learning (RL) has proven promising for aligning to downstream objectives. In the case of diffusion models (DMs), though RL training improves alignment from early timesteps, critical issues such as training instability and mode collapse arise. We address these drawbacks by exploiting the hierarchical nature of DMs: we train them dynamically at each epoch with a tailored RL method, allowing for continual evaluation and step-by-step refinement of the model performance (or alignment). Furthermore, we find that not every denoising step needs to be fine-tuned to align DMs to downstream tasks. Consequently, in addition to clipping, we regularise model parameters at distinct learning phases via a sliding-window approach. Our approach, termed Hierarchical Reward Fine-tuning (HRF), is validated on the Denoising Diffusion Policy Optimisation method, where we show that models trained with HRF achieve better preservation of diversity in downstream tasks, thus enhancing the fine-tuning robustness and at uncompromising mean rewards.
Abstract（参考訳）: 強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。拡散モデル(DM)の場合、RLトレーニングは初期の段階からアライメントを改善するが、トレーニング不安定やモード崩壊といった重要な問題が発生する。モデル性能(またはアライメント)の連続的な評価とステップバイステップ改善を可能にするために,各エポックで動的にRL法でトレーニングする。さらに、ダウンストリームタスクにDMをアライメントするために、すべてのデノイングステップを微調整する必要はありません。その結果、クリッピングに加えて、スライディング・ウインドウ・アプローチにより、異なる学習段階におけるモデルパラメータを規則化する。階層的リワードファインチューニング(HRF)と呼ばれるこの手法は,HRFで訓練されたモデルが下流タスクの多様性の保存性を向上し,微調整の堅牢性を高め,平均報酬を損なわずに向上することを示す,Denoising Diffusion Policy Optimisation法で検証されている。

関連論文リスト

VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文参考訳（メタデータ） (2025-05-21T17:44:37Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文参考訳（メタデータ） (2025-03-08T11:19:48Z)
Score as Action: Fine-Tuning Diffusion Generative Models by Continuous-time Reinforcement Learning [9.025671446527694]
人間のフィードバックからの強化学習(RLHF)は、信頼できる生成AIモデルを構築する上で重要なステップとなっている。本研究は、連続時間RLを用いた微動拡散モデルに対する規律付きアプローチを開発することを目的とする。
論文参考訳（メタデータ） (2025-02-03T20:50:05Z)
Scores as Actions: a framework of fine-tuning diffusion models by continuous-time reinforcement learning [9.025671446527694]
人間からのフィードバックからの強化学習(RLHF)は、生成モデルと人間の意図を整合させる上で有望な方向を示す。本研究では,人間のフィードバックから学習した報酬関数を探索的連続時間制御問題として,微調整拡散モデルのタスクを定式化する。我々は、異なる方程式の仮定の下で、ポリシー最適化と正規化のための対応する連続時間RL理論を開発する。
論文参考訳（メタデータ） (2024-09-12T21:12:21Z)
SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文参考訳（メタデータ） (2024-09-10T16:44:47Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文参考訳（メタデータ） (2024-02-22T04:10:57Z)
The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning [31.8260779160424]
学習力学モデルの改善に伴い,一般的なアルゴリズムがどのように機能するかを検討する。エッジ・オブ・リーチ問題に直接対処する単純で堅牢な手法であるReach-Aware Learning (RAVL)を提案する。
論文参考訳（メタデータ） (2024-02-19T20:38:00Z)
Deep autoregressive density nets vs neural ensembles for model-based offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。 D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文参考訳（メタデータ） (2024-02-05T10:18:15Z)
Not All Steps are Equal: Efficient Generation with Progressive Diffusion Models [62.155612146799314]
ステップ適応トレーニングと呼ばれる新しい2段階のトレーニング戦略を提案する。初期段階では、ベース・デノナイジング・モデルはすべてのタイムステップを包含するように訓練される。タイムステップを別々のグループに分割し、各グループ内でモデルを微調整して、特殊な認知機能を実現します。
論文参考訳（メタデータ） (2023-12-20T03:32:58Z)
One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。 OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文参考訳（メタデータ） (2023-11-27T12:02:42Z)
FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained Models in Few-Shot Learning [21.693779973263172]
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
論文参考訳（メタデータ） (2023-10-23T17:12:01Z)
Learn from the Past: A Proxy Guided Adversarial Defense Framework with Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。 AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文参考訳（メタデータ） (2023-10-19T13:13:41Z)
Restoration based Generative Models [0.886014926770622]
デノイング拡散モデル(DDM)は、印象的な合成品質を示すことで注目を集めている。本稿では、画像復元(IR)の観点からDDMの解釈を確立する。本稿では,前処理の柔軟性を生かして,拡散過程と比較して性能を向上するマルチスケールトレーニングを提案する。われわれのフレームワークは、新しいタイプのフレキシブル・ジェネラル・ジェネラル・ジェネレーティブ・モデルの設計の道を開いたと信じている。
論文参考訳（メタデータ） (2023-02-20T00:53:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。