論文の概要: Self-Reflective Reinforcement Learning for Diffusion-based Image Reasoning Generation
- arxiv url: http://arxiv.org/abs/2505.22407v1
- Date: Wed, 28 May 2025 14:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.654731
- Title: Self-Reflective Reinforcement Learning for Diffusion-based Image Reasoning Generation
- Title(参考訳): 拡散型画像推論生成のための自己回帰強化学習
- Authors: Jiadong Pan, Zhiyuan Ma, Kaiyan Zhang, Ning Ding, Bowen Zhou,
- Abstract要約: 拡散モデルは最近、画像生成タスクにおいて例外的な性能を示した。
本稿では,拡散モデルに対する自己回帰RLアルゴリズムであるSRRLを提案する。
- 参考スコア(独自算出の注目度): 24.247140501653547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have recently demonstrated exceptional performance in image generation task. However, existing image generation methods still significantly suffer from the dilemma of image reasoning, especially in logic-centered image generation tasks. Inspired by the success of Chain of Thought (CoT) and Reinforcement Learning (RL) in LLMs, we propose SRRL, a self-reflective RL algorithm for diffusion models to achieve reasoning generation of logical images by performing reflection and iteration across generation trajectories. The intermediate samples in the denoising process carry noise, making accurate reward evaluation difficult. To address this challenge, SRRL treats the entire denoising trajectory as a CoT step with multi-round reflective denoising process and introduces condition guided forward process, which allows for reflective iteration between CoT steps. Through SRRL-based iterative diffusion training, we introduce image reasoning through CoT into generation tasks adhering to physical laws and unconventional physical phenomena for the first time. Notably, experimental results of case study exhibit that the superior performance of our SRRL algorithm even compared with GPT-4o. The project page is https://jadenpan0.github.io/srrl.github.io/.
- Abstract(参考訳): 拡散モデルは最近、画像生成タスクにおいて例外的な性能を示した。
しかし、既存の画像生成手法は、特に論理中心の画像生成タスクにおいて、画像推論のジレンマに悩まされている。
LLMにおけるChain of Thought (CoT) とReinforcement Learning (RL) の成功に触発されて、我々は拡散モデルのための自己反射型RLアルゴリズムであるSRRLを提案し、生成軌跡をまたいだリフレクションと反復を行うことで論理画像の推論を実現する。
遮音工程の中間試料はノイズを発生させ,正確な報奨評価を困難にしている。
この課題に対処するため、SRRLはマルチラウンドの反射デノゲーションプロセスにより、CoTステップ全体のデノゲーションをCoTステップとして扱い、CoTステップ間のリフレクティブイテレーションを可能にする条件導出プロセスを導入している。
SRRLをベースとした反復拡散訓練を通じて,CoTによる画像推論を物理法則や非伝統的な物理現象に固執する生成タスクに初めて導入する。
特に, ケーススタディ実験の結果, GPT-4oと比較して, SRRLアルゴリズムの優れた性能を示した。
プロジェクトページはhttps://jadenpan0.github.io/srrl.github.io/である。
関連論文リスト
- Timestep-Aware Diffusion Model for Extreme Image Rescaling [47.89362819768323]
本稿では,時間認識拡散モデル(TADM)と呼ばれる,画像再スケーリングのための新しいフレームワークを提案する。
TADMは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を行う。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - One-Step Effective Diffusion Network for Real-World Image Super-Resolution [11.326598938246558]
本稿では,Real-ISR問題に対する1ステップの効果的な拡散ネットワーク,すなわちOSEDiffを提案する。
トレーニング可能な層で事前学習した拡散ネットワークを微調整し、複雑な画像劣化に適応する。
我々のOSEDiffモデルは1つの拡散ステップでHQイメージを効率よく効果的に生成できる。
論文 参考訳(メタデータ) (2024-06-12T13:10:31Z) - RL for Consistency Models: Faster Reward Guided Text-to-Image Generation [15.238373471473645]
強化学習(RL)を用いた微調整一貫性モデルのためのフレームワークを提案する。
RLCM(Reinforcement Learning for Consistency Model)と呼ばれる我々のフレームワークは、一貫性モデルの反復推論プロセスをRLプロシージャとしてフレーム化します。
RL微調整拡散モデルと比較して、RCCMの列車は大幅に高速で、報奨目標に基づいて測定された生成の質を向上し、2段階の推論ステップで高品質な画像を生成することにより推論手順を高速化する。
論文 参考訳(メタデータ) (2024-03-25T15:40:22Z) - Iterative Token Evaluation and Refinement for Real-World
Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。
本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。
ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文 参考訳(メタデータ) (2023-12-09T17:07:32Z) - SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。
しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。
本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:21:29Z) - Deep Equilibrium Diffusion Restoration with Parallel Sampling [120.15039525209106]
拡散モデルに基づく画像復元(IR)は、拡散モデルを用いて劣化した画像から高品質な(本社)画像を復元し、有望な性能を達成することを目的としている。
既存のほとんどの手法では、HQイメージをステップバイステップで復元するために長いシリアルサンプリングチェーンが必要であるため、高価なサンプリング時間と高い計算コストがかかる。
本研究では,拡散モデルに基づくIRモデルを異なる視点,すなわちDeqIRと呼ばれるDeQ(Deep equilibrium)固定点系で再考することを目的とする。
論文 参考訳(メタデータ) (2023-11-20T08:27:56Z) - Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。
両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-08-25T03:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。