論文の概要: RubricRL: Simple Generalizable Rewards for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2511.20651v1
- Date: Tue, 25 Nov 2025 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.65061
- Title: RubricRL: Simple Generalizable Rewards for Text-to-Image Generation
- Title(参考訳): RubricRL:テキスト・画像生成のための単純な一般化可能なリワード
- Authors: Xuelu Feng, Yunsheng Li, Ziyu Wan, Zixuan Gao, Junsong Yuan, Dongdong Chen, Chunming Qiao,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、テキストから画像への生成モデルと人間の嗜好を整合させる、有望なアプローチとして最近登場した。
既存の方法は、固定重量の複合指標(例えば、CLIP、OCR、リアリズムスコア)や、人間の嗜好モデルから抽出した単一のスカラー報酬に頼っていることが多い。
本稿では,ルーブリック型報酬設計のための簡易かつ汎用的なフレームワークRLを提案する。
- 参考スコア(独自算出の注目度): 48.51955133988087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has recently emerged as a promising approach for aligning text-to-image generative models with human preferences. A key challenge, however, lies in designing effective and interpretable rewards. Existing methods often rely on either composite metrics (e.g., CLIP, OCR, and realism scores) with fixed weights or a single scalar reward distilled from human preference models, which can limit interpretability and flexibility. We propose RubricRL, a simple and general framework for rubric-based reward design that offers greater interpretability, composability, and user control. Instead of using a black-box scalar signal, RubricRL dynamically constructs a structured rubric for each prompt--a decomposable checklist of fine-grained visual criteria such as object correctness, attribute accuracy, OCR fidelity, and realism--tailored to the input text. Each criterion is independently evaluated by a multimodal judge (e.g., o4-mini), and a prompt-adaptive weighting mechanism emphasizes the most relevant dimensions. This design not only produces interpretable and modular supervision signals for policy optimization (e.g., GRPO or PPO), but also enables users to directly adjust which aspects to reward or penalize. Experiments with an autoregressive text-to-image model demonstrate that RubricRL improves prompt faithfulness, visual detail, and generalizability, while offering a flexible and extensible foundation for interpretable RL alignment across text-to-image architectures.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、テキストから画像への生成モデルと人間の嗜好を整合させる、有望なアプローチとして最近登場した。
しかし、重要な課題は、効果的で解釈可能な報酬を設計することである。
既存の方法は、固定重量の複合メトリクス(例えば、CLIP、OCR、リアリズムスコア)や、人間の嗜好モデルから抽出した1つのスカラー報酬に依存しており、解釈可能性と柔軟性を制限することができる。
本稿では,RubricRLを提案する。RubricRLはルーブリック型報酬設計のためのシンプルで汎用的なフレームワークで,より高い解釈性,構成性,ユーザコントロールを提供する。
ブラックボックススカラー信号の代わりに、RubricRLは、オブジェクトの正確さ、属性の精度、OCRの忠実さ、リアリズムといった細かい視覚的基準の分解可能なチェックリストを入力テキストに合わせて動的に構築する。
それぞれの基準は、独立にマルチモーダル・ジャッジ(例えば、o4-mini)によって評価され、プロンプト適応重み付け機構は最も関連する次元を強調する。
この設計は、ポリシー最適化のための解釈可能でモジュラーな監視信号(GRPOやPPOなど)を生成するだけでなく、ユーザーは報酬や罰を与えるアスペクトを直接調整することができる。
自己回帰的テキスト・ツー・イメージモデルによる実験では、RubricRLは、テキスト・ツー・イメージアーキテクチャ間での解釈可能なRLアライメントの柔軟で拡張可能な基盤を提供しながら、迅速な忠実さ、視覚的詳細、一般化性を改善することが示されている。
関連論文リスト
- HiCoGen: Hierarchical Compositional Text-to-Image Generation in Diffusion Models via Reinforcement Learning [66.99487505369254]
HiCoGenは、新しいChain of Synthesisパラダイムに基づいて構築されている。
複雑なプロンプトを最小の意味単位に分解する。
その後、これらのユニットを反復的に合成し、各ステップで生成された画像が次に重要な視覚的コンテキストを提供する。
実験により,提案手法は概念カバレッジと構成精度の両方において,既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-11-25T06:24:25Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - Unlocking the Essence of Beauty: Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization [63.169050703903515]
強化学習(RL)を用いた包括的審美的推論フレームワークAes-R1を提案する。
Aes-R1はパイプライン、AesCoTを統合し、高品質なチェーン・オブ・プリーティングデータの構築とフィルタリングを行う。
実験により、Aes-R1は背骨の平均PLCC/SRCCを47.9%/34.8%改善することが示された。
論文 参考訳(メタデータ) (2025-09-26T04:55:00Z) - SCoRE: Streamlined Corpus-based Relation Extraction using Multi-Label Contrastive Learning and Bayesian kNN [0.2812395851874055]
本稿では,モジュール型かつ費用対効果の高い文レベルの関係抽出システムであるSCoREを紹介する。
SCoREは簡単なPLMスイッチングを可能にし、微調整を必要とせず、多様なコーパスやKGにスムーズに適応する。
SCoREは, エネルギー消費を大幅に削減しつつ, 最先端の手法に適合するか, 超越しているかを示す。
論文 参考訳(メタデータ) (2025-07-09T14:33:07Z) - Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文 参考訳(メタデータ) (2025-05-30T14:34:57Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Plug-and-Play Regulators for Image-Text Matching [76.28522712930668]
微細な対応と視覚的セマンティックなアライメントの爆発は、画像とテキストのマッチングにおいて大きな可能性を秘めている。
我々は、メッセージ出力を効率的にエンコードして、コンテキストを自動生成し、モーダル表現を集約する、シンプルだが非常に効果的な2つのレギュレータを開発した。
MSCOCOとFlickr30Kデータセットの実験は、複数のモデルで印象的で一貫したR@1ゲインをもたらすことができることを実証している。
論文 参考訳(メタデータ) (2023-03-23T15:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。