論文の概要: AutoRubric-T2I: Robust Rule-Based Reward Model for Text-to-Image Alignment
- arxiv url: http://arxiv.org/abs/2605.17602v1
- Date: Sun, 17 May 2026 19:00:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.225801
- Title: AutoRubric-T2I: Robust Rule-Based Reward Model for Text-to-Image Alignment
- Title(参考訳): AutoRubric-T2I:テキストと画像のアライメントのためのロバストルールに基づくリワードモデル
- Authors: Kuei-Chun Kao, Daixuan Huo, Yuanhao Ban, Cho-Jui Hsieh,
- Abstract要約: AutoRubric-T2Iは、VLM審査員を導くための明示的なルーブリックを自動的に合成し、選択する最初のルーブリック学習フレームワークである。
本稿では,AutoRubric-T2Iがアノテートされた嗜好データの0.01%以下を用いて,高品質で解釈可能な報奨信号を生成することを示す。
- 参考スコア(独自算出の注目度): 44.851672394450105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning Text-to-Image (T2I) generation models with human preferences increasingly relies on image reward models that score or rank generated images according to prompt alignment and perceptual quality. Existing reward models are commonly trained as Bradley-Terry (BT) preference models on large-scale human preference corpora, making them costly to train, difficult to adapt, and opaque in their evaluation criteria. Meanwhile, Vision-Language Model (VLM) judges can provide more fine-grained assessments through textual rubrics, but their manually designed or heuristically generated scoring rules may fail to reliably reflect human preferences. In this paper, we propose AutoRubric-T2I, the first rubric learning framework in T2I that automatically synthesizes and selects explicit rubrics for guiding VLM judges. AutoRubric-T2I first synthesizes reasoning traces from preference pairs into candidate rubrics, then uses a VLM judge to score paired images under each rubric, producing pairwise rubric-score differences for preference learning. To remove noisy and redundant rules, we further employ a $\ell_1$-Regularized Logistic Regression Refiner, which selects the Top-$N$ most discriminative rubrics. Extensive evaluations show that AutoRubric-T2I produces high-quality, interpretable reward signals using less than 0.01% of the annotated preference data, substantially reducing the need for large-scale reward-model training. On image reward benchmarks such as MMRB2, AutoRubric-T2I outperforms strong reward model baselines. We further validate AutoRubric-T2I as an RL reward on downstream T2I tasks, including TIIF and UniGenBench++, where it improves generation quality over scalar reward models using the Flow-GRPO pipeline on diffusion models.
- Abstract(参考訳): 人間の好みを持つテキスト・ツー・イメージ(T2I)生成モデルの調整は、素早いアライメントと知覚品質に応じて生成された画像のスコアやランク付けを行うイメージ報酬モデルにますます依存している。
既存の報酬モデルは通常、大規模な人間の嗜好コーパスにおけるBradley-Terry(BT)選好モデルとして訓練されており、訓練にコストがかかり、適応が難しく、評価基準に不透明である。
一方、VLM(Vision-Language Model)の審査員は、テキストのルーブリックを通じてよりきめ細かい評価を行うことができるが、手動で設計またはヒューリスティックに生成されたスコアリングルールは、人間の好みを確実に反映できない可能性がある。
本稿では,VLM審査員を導くための明示的なルーブリックを自動的に合成し,選択する,T2Iにおける最初のルーブリック学習フレームワークであるAutoRubric-T2Iを提案する。
AutoRubric-T2Iはまず、好みのペアから候補のルーブリックへの推論トレースを合成し、次にVLMの判定器を使用して各ルーブリックの下でペアの画像をスコアし、ペアのルーブリックスコアの違いを優先学習に生み出す。
ノイズと冗長なルールを削除するために、さらに$\ell_1$-regularized Logistic Regression Refinerを使用します。
広範囲な評価の結果,AutoRubric-T2Iは注釈付き嗜好データの0.01%未満で高品質で解釈可能な報奨信号を生成し,大規模な報奨モデルトレーニングの必要性を大幅に低減した。
MMRB2のような画像報酬ベンチマークでは、AutoRubric-T2Iは強力な報酬モデルベースラインを上回っている。
さらに, TIIFやUniGenBench++など, 下流T2IタスクにおけるRL報酬としてAutoRubric-T2Iを検証し, 拡散モデル上でのFlow-GRPOパイプラインを用いたスカラー報酬モデルよりも生成品質を向上させる。
関連論文リスト
- RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time [51.256131853751754]
本研究では,多次元的批判を明示的に生成するために報酬モデルを教えることで,受動的評価器から能動的最適化ツールへ変換することを示す。
提案手法では, 嗜好データから高品質な論理を復元する原理的フレームワークであるpreference-Anchored Rationalization (PARROT) を導入する。
その結果、RationalRewards (8B) は、オープンソース報酬モデル間の最先端の好み予測を実現する。
論文 参考訳(メタデータ) (2026-04-13T15:38:09Z) - OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment [38.1645520104553]
OpenRubricsは,ルーブリック世代とルーブリックベースの報酬モデルをトレーニングするための,大規模な(プロンプト,エクスプリシット)ペアのコレクションである。
識別的・包括的評価信号を引き出すために,優先的・拒否的な応答を対比することにより,厳格な規則(単純質)と原則(簡易品質)の両方を導出するコントラスト生成(CRG)を導入する。
この結果から,ごみは費用対人評価と自動報酬モデリングのギャップを狭めるような,スケーラブルなアライメント信号を提供することがわかった。
論文 参考訳(メタデータ) (2025-10-09T03:31:26Z) - IRIS: Intrinsic Reward Image Synthesis [49.099059035701934]
自己回帰的T2Iモデルが外部報酬やラベル付きデータに頼ることなく内部信号からどのように学習できるかを示す。
自己回帰型T2Iモデルを改善するためのフレームワークとして,本質的な報酬のみを用いて強化学習を行うIRISを提案する。
論文 参考訳(メタデータ) (2025-09-29T22:38:25Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - RFMI: Estimating Mutual Information on Rectified Flow for Text-to-Image Alignment [51.85242063075333]
フローマッチングフレームワークでトレーニングされたRectified Flow (RF)モデルは、Text-to-Image (T2I)条件生成における最先端のパフォーマンスを達成した。
しかし、複数のベンチマークでは、合成画像はプロンプトとの整合性に乏しいことが示されている。
RFMI(Mutual Information (MI) 推定器) を導入し,MI推定に事前学習モデル自体を用いる。
論文 参考訳(メタデータ) (2025-03-18T15:41:45Z) - CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling [27.86204841898399]
大規模な言語モデルでのリワードモデリングは、ハッキングに報奨を与える可能性がある。
本稿では,この問題を緩和するためにコンテキストアウェア・リワード・モデリング(CARMO)を提案する。
我々は、生成モデルに対するゼロショット設定における新しい最先端性能を確立し、Reward Benchの2.1%の改善を実現した。
論文 参考訳(メタデータ) (2024-10-28T21:18:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。