論文の概要: Step-level Reward for Free in RL-based T2I Diffusion Model Fine-tuning
- arxiv url: http://arxiv.org/abs/2505.19196v1
- Date: Sun, 25 May 2025 15:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.970981
- Title: Step-level Reward for Free in RL-based T2I Diffusion Model Fine-tuning
- Title(参考訳): RLを用いたT2I拡散モデルファインタニングにおけるステップレベルのフリーリワード
- Authors: Xinyao Liao, Wei Wei, Xiaoye Qu, Yu Cheng,
- Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルにおける微細調整による強化学習(RL)の最近の進歩により、生成された画像と学習可能な報酬関数の整合が図られている。
既存のアプローチは、RL駆動最適化のマルコフ決定過程としてデノナイジングを再構成する。
本稿では,denoisingのステップにまたがる高密度報酬を動的に分散する信用割当フレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.02076024811612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-image (T2I) diffusion model fine-tuning leverage reinforcement learning (RL) to align generated images with learnable reward functions. The existing approaches reformulate denoising as a Markov decision process for RL-driven optimization. However, they suffer from reward sparsity, receiving only a single delayed reward per generated trajectory. This flaw hinders precise step-level attribution of denoising actions, undermines training efficiency. To address this, we propose a simple yet effective credit assignment framework that dynamically distributes dense rewards across denoising steps. Specifically, we track changes in cosine similarity between intermediate and final images to quantify each step's contribution on progressively reducing the distance to the final image. Our approach avoids additional auxiliary neural networks for step-level preference modeling and instead uses reward shaping to highlight denoising phases that have a greater impact on image quality. Our method achieves 1.25 to 2 times higher sample efficiency and better generalization across four human preference reward functions, without compromising the original optimal policy.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルにおける微細調整による強化学習(RL)の最近の進歩により、生成された画像と学習可能な報酬関数の整合が図られている。
既存のアプローチでは、RL駆動最適化のマルコフ決定プロセスとしてデノナイジングを再構成している。
しかし、彼らは報酬の幅に悩まされ、生成された軌道ごとに1つの遅延報酬しか受け取らなかった。
この欠陥は、denoisingアクションの正確なステップレベルの属性を妨げ、トレーニング効率を損なう。
この問題に対処するために,より複雑な報酬を段階的に動的に分配する,シンプルで効果的な信用割当フレームワークを提案する。
具体的には、中間画像と最終画像のコサイン類似性の変化を追跡し、各ステップの寄与を定量化し、最終画像までの距離を徐々に減少させる。
我々のアプローチは、ステップレベルの嗜好モデリングのための補助ニューラルネットワークを回避し、代わりに報酬シェーピングを使用して、画像の品質により大きな影響を及ぼすデノナイジングフェーズを強調します。
提案手法は, 当初の最適方針を損なうことなく, サンプル効率の1.25倍から2倍に向上し, 4つのヒト選好報酬関数をまたいだより優れた一般化を実現している。
関連論文リスト
- Two-Stage Random Alternation Framework for One-Shot Pansharpening [12.385955231193675]
本稿では,任意のマルチスペクトル(MS)/パンクロマティック(PAN)ペアに対して,インスタンス固有の最適化を行う2段階ランダム交互化フレームワーク(TRA-PAN)を提案する。
TRA-PANは、縮小解像度画像からの強い監督制約とフル解像度画像の物理的特性を効果的に統合する。
実験の結果,TRA-PANは実世界のシナリオにおいて,定量的な測定値と視覚的品質において,最先端(SOTA)手法よりも優れていた。
論文 参考訳(メタデータ) (2025-05-10T09:26:22Z) - Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards [52.90573877727541]
拡散モデル微調整では強化学習(RL)が検討されている。
RLの有効性はスパース報酬の挑戦によって制限される。
$textB2text-DiffuRL$は既存の最適化アルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2025-03-14T09:45:19Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Learning Efficient and Effective Trajectories for Differential Equation-based Image Restoration [59.744840744491945]
我々は, この手法の軌道最適化を再構築し, 復元品質と効率の両立に焦点をあてる。
本稿では,複雑な経路を適応可能なサイズで複数の管理可能なステップに合理化するためのコスト対応トラジェクトリー蒸留法を提案する。
実験では提案手法の有意な優位性を示し, 最先端手法よりも最大2.1dBのPSNR改善を実現した。
論文 参考訳(メタデータ) (2024-10-07T07:46:08Z) - Image reconstruction algorithms in radio interferometry: from
handcrafted to learned denoisers [7.1439425093981574]
本稿では,プラグイン・アンド・プレイ方式にヒントを得た,無線干渉計測のための新しい画像再構成アルゴリズムを提案する。
このアプローチは、ディープニューラルネットワーク(DNN)をノイズとしてトレーニングすることで、事前の画像モデルを学ぶことで構成される。
学習したデノイザをフォワード-バックワード最適化アルゴリズムにプラグインし、デノイザのステップをグラデーション-ディフレッシュなデータ-忠実度ステップで交互に繰り返す単純な反復構造を与える。
論文 参考訳(メタデータ) (2022-02-25T20:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。