論文の概要: Learning to Credit the Right Steps: Objective-aware Process Optimization for Visual Generation
- arxiv url: http://arxiv.org/abs/2604.19234v2
- Date: Mon, 27 Apr 2026 09:55:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.90934
- Title: Learning to Credit the Right Steps: Objective-aware Process Optimization for Visual Generation
- Title(参考訳): 正しいステップを信用する学習:視覚生成のための客観的プロセス最適化
- Authors: Rui Li, Ke Hao, Yuanzhi Liang, Haibin Huang, Chi Zhang, Yun Gu, XueLong Li,
- Abstract要約: 強化学習は人間の嗜好信号を用いた視覚生成モデルの訓練後の効果的な枠組みとして登場した。
現代の視覚生成では、視覚的品質、動きの整合性、テキストアライメントなどの不均一な目的を捉えるために、複数の報酬モデルがしばしば使用される。
GRPO の微粒化学習のための構造化フレームワークである Objective-Aware Trajectory Credit Assignment (OTCA) を提案する。
- 参考スコア(独自算出の注目度): 57.61006679699323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning, particularly Group Relative Policy Optimization (GRPO), has emerged as an effective framework for post-training visual generative models with human preference signals. However, its effectiveness is fundamentally limited by coarse reward credit assignment. In modern visual generation, multiple reward models are often used to capture heterogeneous objectives, such as visual quality, motion consistency, and text alignment. Existing GRPO pipelines typically collapse these rewards into a single static scalar and propagate it uniformly across the entire diffusion trajectory. This design ignores the stage-specific roles of different denoising steps and produces mistimed or incompatible optimization signals. To address this issue, we propose Objective-aware Trajectory Credit Assignment (OTCA), a structured framework for fine-grained GRPO training. OTCA consists of two key components. Trajectory-Level Credit Decomposition estimates the relative importance of different denoising steps. Multi-Objective Credit Allocation adaptively weights and combines multiple reward signals throughout the denoising process. By jointly modeling temporal credit and objective-level credit, OTCA converts coarse reward supervision into a structured, timestep-aware training signal that better matches the iterative nature of diffusion-based generation. Extensive experiments show that OTCA consistently improves both image and video generation quality across evaluation metrics.
- Abstract(参考訳): 強化学習、特にグループ相対的政策最適化(GRPO)は、人間の嗜好信号を用いた視覚生成モデルの訓練後の効果的な枠組みとして登場した。
しかし、その効果は基本的に粗末な報酬クレジットの割り当てによって制限される。
現代の視覚生成では、視覚的品質、動きの整合性、テキストアライメントなどの不均一な目的を捉えるために、複数の報酬モデルがしばしば使用される。
既存のGRPOパイプラインは通常、これらの報酬を単一の静的スカラーに分解し、拡散軌道全体にわたって均一に伝播する。
この設計は、異なるデノベーションステップのステージ固有の役割を無視し、不時または不整合の最適化信号を生成する。
この問題に対処するために,詳細なGRPOトレーニングのための構造化フレームワークであるObjective-Aware Trajectory Credit Assignment (OTCA)を提案する。
OTCAは2つのキーコンポーネントから構成される。
Trajectory-Level Credit Decompositionは、異なる演目ステップの相対的な重要性を見積もる。
マルチオブジェクトクレジットアロケーションは適応的に重み付けされ、デノナイジングプロセスを通して複数の報酬信号を結合する。
OTCAは、時間的信用と客観的信用を共同でモデル化することにより、粗い報酬監督を構造化されたタイムステップ対応の訓練信号に変換する。
大規模な実験により、OTCAは評価指標間で画像およびビデオ生成品質を一貫して改善することが示された。
関連論文リスト
- Step-level Denoising-time Diffusion Alignment with Multiple Objectives [26.715620800855962]
強化学習(Reinforcement Learning, RL)は、拡散モデルと人間の嗜好を整合させる強力なツールとして登場した。
しかし実際には、人間の嗜好は本質的に多元的であり、整列モデルは下流の複数の目標をバランスさせなければならない。
拡散モデルと複数の目的を整合させる学習自由度フレームワークであるMSDDA(Multi-objective Step-level Denoising-time Diffusion Alignment)を提案する。
論文 参考訳(メタデータ) (2026-04-15T19:52:05Z) - Policy-based Tuning of Autoregressive Image Models with Instance- and Distribution-Level Rewards [16.135177543347773]
自己回帰モデル(AR)は画像生成に非常に効果的であるが、標準の最大形推定トレーニングではサンプルの品質と多様性を直接最適化することができない。
本稿では,トークンベースのAR推論をマルコフ決定プロセスとして,グループ相対ポリシー最適化によって最適化した軽量なRLフレームワークを提案する。
私たちの中核的な貢献は、新しい流通レベルのLeave-One-Out FID(LOO-FID)の報酬の導入です。
論文 参考訳(メタデータ) (2026-03-24T11:28:36Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - Unleashing the Power of Vision-Language Models for Long-Tailed Multi-Label Visual Recognition [55.189113121465816]
本稿では,長い尾を持つ多ラベル視覚認識のための新しい相関適応プロンプトネットワーク(CAPNET)を提案する。
CAPNETはCLIPのテキストエンコーダからの相関を明示的にモデル化する。
テスト時間アンサンブルによる一般化を改善し、視覚・テクスチャのモダリティを実現する。
論文 参考訳(メタデータ) (2025-11-25T18:57:28Z) - Efficient Conditional Generation on Scale-based Visual Autoregressive Models [26.81493253536486]
効率的な制御モデル(英語: Efficient Control Model、ECM)は、分散アーキテクチャを介して制御信号を導入する軽量制御モジュールを備えたプラグイン・アンド・プレイフレームワークである。
ECMは、リアルタイムに生成されたトークンと、その限られた容量の利用を最大化するために設計された共有フィードフォワードネットワーク(FFN)を用いて、条件付き機能を洗練する。
提案手法は,既存のベースラインを越えつつ,トレーニングと推論の効率を大幅に向上させるとともに,画像生成に対する高忠実かつ多様な制御を実現する。
論文 参考訳(メタデータ) (2025-10-07T06:27:03Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。