論文の概要: Integrating Reinforcement Learning with Visual Generative Models: Foundations and Advances
- arxiv url: http://arxiv.org/abs/2508.10316v1
- Date: Thu, 14 Aug 2025 03:44:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.174897
- Title: Integrating Reinforcement Learning with Visual Generative Models: Foundations and Advances
- Title(参考訳): 強化学習と視覚生成モデルの統合:基礎と進歩
- Authors: Yuanzhi Liang, Yijie Fang, Rui Li, Ziqi Ni, Ruijie Su, Chi Zhang, Xuelong Li,
- Abstract要約: 強化学習は、非微分可能、嗜好駆動、時間的に構造化された目的を最適化するための原則化されたフレームワークを提供する。
最近の進歩は、生成タスク間の制御性、一貫性、人間のアライメントを高める効果を実証している。
- 参考スコア(独自算出の注目度): 42.00242129525751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models have made significant progress in synthesizing visual content, including images, videos, and 3D/4D structures. However, they are typically trained with surrogate objectives such as likelihood or reconstruction loss, which often misalign with perceptual quality, semantic accuracy, or physical realism. Reinforcement learning (RL) offers a principled framework for optimizing non-differentiable, preference-driven, and temporally structured objectives. Recent advances demonstrate its effectiveness in enhancing controllability, consistency, and human alignment across generative tasks. This survey provides a systematic overview of RL-based methods for visual content generation. We review the evolution of RL from classical control to its role as a general-purpose optimization tool, and examine its integration into image, video, and 3D/4D generation. Across these domains, RL serves not only as a fine-tuning mechanism but also as a structural component for aligning generation with complex, high-level goals. We conclude with open challenges and future research directions at the intersection of RL and generative modeling.
- Abstract(参考訳): 生成モデルは、画像、ビデオ、および3D/4D構造を含む視覚コンテンツを合成する上で大きな進歩を遂げた。
しかし、それらは典型的には、しばしば知覚品質、意味的正確性、物理的現実主義と誤解される可能性や再建損失のような代理的な目的で訓練されている。
強化学習(Reinforcement Learning, RL)は、非微分可能、嗜好駆動、時間的に構造化された目的を最適化するための原則的なフレームワークを提供する。
最近の進歩は、生成タスク間の制御性、一貫性、人間のアライメントを高める効果を実証している。
本稿では,RLに基づく視覚コンテンツ生成手法について概観する。
本稿では,古典的制御から汎用最適化ツールとしての役割に至るまでのRLの進化を概観し,画像,ビデオ,3D/4D生成への統合について検討する。
これらの領域全体において、RLは微細調整機構としてだけでなく、複雑な高レベルな目標と生成を整合させる構造成分としても機能する。
我々は、RLと生成モデリングの交差点におけるオープンな課題と今後の研究方向性を結論づける。
関連論文リスト
- Reinforcement Learning in Vision: A Survey [36.820183535103695]
この調査は、この分野の批判的かつ最新の合成を提供する。
まず、視覚的RL問題を定式化し、政策最適化戦略の進化を辿る。
カリキュラム駆動型トレーニング、嗜好整合拡散、統一報酬モデリングなどのトレンドを蒸留する。
論文 参考訳(メタデータ) (2025-08-11T17:08:55Z) - AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning [56.71089466532673]
本稿では,自己回帰(AR)画像生成モデルにオンラインRLトレーニングを統合するアプローチであるAR-GRPOを提案する。
クラス条件(クラス・ツー・イメージ)とテキスト条件(テキスト・ツー・イメージ)の両方のイメージ生成タスクについて包括的な実験を行う。
その結果,様々な評価指標に対して一貫した改善が得られた。
論文 参考訳(メタデータ) (2025-08-09T10:37:26Z) - Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。
本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。
以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-22T17:59:49Z) - DanceGRPO: Unleashing GRPO on Visual Generation [36.36813831536346]
強化学習(Reinforcement Learning, RL)は, 微調整型生成モデルにおいて有望なアプローチである。
DDPOやDPOKのような既存の手法は、大規模で多様なプロンプトセットへのスケーリングにおいて基本的な制限に直面している。
本稿では,グループ相対政策最適化の革新的適応を通じて,これらの制約に対処するフレームワークであるDanceGRPOを提案する。
論文 参考訳(メタデータ) (2025-05-12T17:59:34Z) - From Noise to Nuance: Advances in Deep Generative Image Models [8.802499769896192]
ディープラーニングに基づく画像生成は、2021年以来パラダイムシフトを続けてきた。
安定拡散, DALL-E, 一貫性モデルの最近の進歩は, 画像合成の能力と性能の境界を再定義している。
マルチモーダル理解とゼロショット生成能力の強化が,産業全体にわたる実践的応用をいかに変えつつあるかを検討する。
論文 参考訳(メタデータ) (2024-12-12T02:09:04Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。