論文の概要: Do Less, Achieve More: Do We Need Every-Step Optimization for RL Fine-tuning of Diffusion Models?
- arxiv url: http://arxiv.org/abs/2605.15855v1
- Date: Fri, 15 May 2026 11:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.261789
- Title: Do Less, Achieve More: Do We Need Every-Step Optimization for RL Fine-tuning of Diffusion Models?
- Title(参考訳): 拡散モデルのRL微調整に全ステップ最適化が必要か?
- Authors: Renye Yan, Jikang Cheng, Shikun Sun, Yi Sun, You Wu, Wei Peng, Zongwei Wang, Ling Liang, Junliang Xing, Yimao Cai,
- Abstract要約: ほとんどの研究は、RLをフルデノナイジング軌道に適用し、計算的にコストがかかり、選好アライメントが弱まる。
計算コストを低減しつつ生成品質を向上させるRL拡張プラグインであるAdaScopeを提案する。
最先端の手法と比較して、AdaScopeは計算コストを59%削減しながら、パフォーマンスを66%向上させる。
- 参考スコア(独自算出の注目度): 30.438505697106496
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Despite strong image-generation performance, diffusion models' reconstruction objectives limit alignment with human preferences. RL enables such alignment through explicit rewards. However, most studies apply RL to the full denoising trajectory, making it computationally costly and weakening preference alignment, i.e., doing more but achieving less. We observe that the impact of RL fine-tuning varies significantly across denoising stages. In the early stage, image structures are unstable and distant from the final reward signal. Applying RL at this stage leads to delayed rewards and action-reward mismatching, resulting in high variance and inefficient updates. Conversely, in the later stage, reward gains saturate, and continued training tends to overfit local details, intensifying reward hacking. To tackle these challenges, we propose AdaScope, an RL-enhanced plug-in that improves generation quality while reducing computational cost. Specifically, AdaScope adaptively identifies the optimal intervention timing for RL by perceiving the structural evolution and semantic consistency during denoising, and dynamically terminates training once the denoising converges and reward gains saturate. As a result, it achieves a rare 'dual benefit': a reduction in computational costs alongside a significant performance improvement. We offer theoretical grounds for the design of AdaScope. Compared with state-of-the-art methods, AdaScope improves performance by 66% while cutting computational cost by 59%.
- Abstract(参考訳): 画像生成性能は高いが、拡散モデルの再構成目的は人間の嗜好との整合性を制限する。
RL は明示的な報酬を通じてそのようなアライメントを可能にする。
しかし、ほとんどの研究は、RLを完全な縮退軌道に適用し、計算的にコストがかかり、選好アライメントが弱まる。
RL微調整の影響は, 発声段階によって大きく異なることが観察された。
初期の画像構造は不安定であり、最終的な報酬信号から遠ざかっている。
この段階でRLを適用すると、報酬の遅れやアクション・リワードのミスマッチが発生し、高いばらつきと非効率な更新をもたらす。
逆に、後期では報酬のゲインが飽和し、継続的なトレーニングは地元の細部をオーバーフィットさせ、報酬のハッキングを強くする傾向にある。
これらの課題に対処するために,計算コストを削減しつつ生成品質を向上させるRL強化プラグインであるAdaScopeを提案する。
特に、AdaScopeは、復調中の構造的進化と意味的一貫性を知覚することで、RLの最適介入タイミングを適応的に特定し、復調が収束し、報酬が飽和するとトレーニングを動的に終了する。
その結果、計算コストの削減と大幅な性能向上という、稀な「二重利益」を実現している。
AdaScopeの設計に関する理論的根拠を提供する。
最先端の手法と比較して、AdaScopeは計算コストを59%削減しながら、パフォーマンスを66%向上させる。
関連論文リスト
- Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models [58.3184497327891]
蒸留自己回帰(AR)ビデオモデルは、効率的なストリーミング生成を可能にするが、しばしば人間の視覚的嗜好に反する。
蒸留ARモデルに適した効率的なオンライン強化学習フレームワークであるAstrolabeを提案する。
論文 参考訳(メタデータ) (2026-03-17T18:32:18Z) - LACONIC: Length-Aware Constrained Reinforcement Learning for LLM [29.383977698780374]
LACONICは、訓練中に目標トークン予算を強制する強化学習手法である。
出力長を50%以上削減しながら、pass@1を保存または改善する。
一般的な知識と多言語ベンチマークのドメイン外でのパフォーマンスを維持し、トークンは44%減少している。
論文 参考訳(メタデータ) (2026-02-16T05:09:40Z) - Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。
JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。
WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文 参考訳(メタデータ) (2026-01-26T14:16:51Z) - From Supervision to Exploration: What Does Protein Language Model Learn During Reinforcement Learning? [76.288870982181]
タンパク質言語モデル(PLM)は、大規模事前学習と拡張性のあるアーキテクチャを通じて高度な計算タンパク質科学を持つ。
強化学習(RL)は探索を拡大し、タンパク質設計における正確な多目的最適化を可能にした。
RLはサンプリング効率を向上し,さらに重要な点として,教師あり学習で捉えない能力を明らかにするかどうかを問う。
論文 参考訳(メタデータ) (2025-10-02T01:31:10Z) - BroRL: Scaling Reinforcement Learning via Broadened Exploration [88.69554867685243]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルにおいて複雑な推論能力を解き放つ鍵となる要素として登場した。
最近のProRLは、トレーニングステップの数を増やすことで、RLのスケーリングを約束している。
RL, BroR-Lineasing the followingary paradigm for scaling RL, BroR-Lincreasing the rollouts per example to hundreds。
論文 参考訳(メタデータ) (2025-10-01T17:59:02Z) - Step-level Reward for Free in RL-based T2I Diffusion Model Fine-tuning [23.02076024811612]
テキスト・ツー・イメージ(T2I)拡散モデルにおける微細調整による強化学習(RL)の最近の進歩により、生成された画像と学習可能な報酬関数の整合が図られている。
既存のアプローチは、RL駆動最適化のマルコフ決定過程としてデノナイジングを再構成する。
本稿では,denoisingのステップにまたがる高密度報酬を動的に分散する信用割当フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-25T15:43:54Z) - Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models [29.863953001061635]
拡散モデル(DM)は高品質で多様な画像を生成する上で優れた性能を示した。
既存の作業は主にDM効率を高めるためのトレーニングプロセスを採用している。
本稿では,アテンション駆動型トレーニングフリー効率拡散モデル (AT-EDM) フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-08T17:56:47Z) - PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models [13.313186665410486]
リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。
既存の報酬微調整手法は、大規模なプロンプトデータセットにおける不安定性によって制限される。
拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするためのPRDP(Proximal Reward difference Prediction)を提案する。
論文 参考訳(メタデータ) (2024-02-13T18:58:16Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。