論文の概要: T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation
- arxiv url: http://arxiv.org/abs/2505.17897v1
- Date: Fri, 23 May 2025 13:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.115656
- Title: T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation
- Title(参考訳): T2I-Eval-R1:Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation
- Authors: Zi-Ao Ma, Tian Lan, Rong-Cheng Tu, Shu-Hang Liu, Heyan Huang, Zhijing Wu, Chen Xu, Xian-Ling Mao,
- Abstract要約: T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
- 参考スコア(独自算出の注目度): 60.620408007636016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress in diffusion-based text-to-image (T2I) generation has created an urgent need for interpretable automatic evaluation methods that can assess the quality of generated images, therefore reducing the human annotation burden. To reduce the prohibitive cost of relying on commercial models for large-scale evaluation, and to improve the reasoning capabilities of open-source models, recent research has explored supervised fine-tuning (SFT) of multimodal large language models (MLLMs) as dedicated T2I evaluators. However, SFT approaches typically rely on high-quality critique datasets, which are either generated by proprietary LLMs-with potential issues of bias and inconsistency-or annotated by humans at high cost, limiting their scalability and generalization. To address these limitations, we propose T2I-Eval-R1, a novel reinforcement learning framework that trains open-source MLLMs using only coarse-grained quality scores, thereby avoiding the need for annotating high-quality interpretable evaluation rationale. Our approach integrates Group Relative Policy Optimization (GRPO) into the instruction-tuning process, enabling models to generate both scalar scores and interpretable reasoning chains with only easy accessible annotated judgment scores or preferences. Furthermore, we introduce a continuous reward formulation that encourages score diversity and provides stable optimization signals, leading to more robust and discriminative evaluation behavior. Experimental results on three established T2I meta-evaluation benchmarks demonstrate that T2I-Eval-R1 achieves significantly higher alignment with human assessments and offers more accurate interpretable score rationales compared to strong baseline methods.
- Abstract(参考訳): 拡散ベースのテキスト・トゥ・イメージ(T2I)生成の急速な進歩は、生成画像の品質を評価できる自動評価手法の解釈を急務に必要としており、人間のアノテーションの負担を軽減している。
大規模評価のために商用モデルに頼ることの禁止コストを低減し、オープンソースモデルの推論能力を向上させるため、最近の研究では、T2I専用評価器としてマルチモーダル大言語モデル(MLLM)の教師付き微調整(SFT)について検討している。
しかし、SFTのアプローチは一般的に高品質な批判データセットに依存しており、それはプロプライエタリなLCMによって生成されるもので、バイアスや不整合の潜在的な問題があり、高いコストで人間によって注釈付けされ、スケーラビリティと一般化が制限される。
これらの制約に対処するため、我々は、粗い品質スコアのみを用いてオープンソースのMLLMを訓練する新しい強化学習フレームワークT2I-Eval-R1を提案する。
提案手法では,グループ相対政策最適化(GRPO)を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を,簡単な注釈付き判定スコアや好みで生成することができる。
さらに、スコアの多様性を促進し、安定した最適化信号を提供する連続報酬定式化を導入し、より堅牢で差別的な評価行動をもたらす。
確立された3つのT2Iメタ評価ベンチマークによる実験結果から,T2I-Eval-R1は人間の評価値との整合性を大幅に向上し,強い基準値法に比べて精度の高い評価値が得られた。
関連論文リスト
- Teach2Eval: An Indirect Evaluation Method for LLM by Judging How It Teaches [46.0474342507327]
Feynman Techniqueにインスパイアされた間接評価フレームワークであるTeach2Evalを紹介する。
本手法は、より弱い学生モデルにタスクを効果的に実行させるためのモデルの複数の能力を評価する。
論文 参考訳(メタデータ) (2025-05-18T06:51:10Z) - Self Iterative Label Refinement via Robust Unlabeled Learning [9.936885864460896]
大規模言語モデル(LLM)の自己抑制手法は、しばしば固有のバイアスと過剰な自信に悩まされる。
本稿では,LLM生成した擬似ラベルの分類処理を改善するために,Unlabeled-Unlabeled学習フレームワークを用いた反復的改良パイプラインを提案する。
我々のアプローチは、初期擬似ラベルを反復的に軽視し、洗練することにより、内部バイアスの悪影響を最小限の人的監督で軽減する。
論文 参考訳(メタデータ) (2025-02-18T06:04:18Z) - Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。
結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。
実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文 参考訳(メタデータ) (2024-09-30T12:36:25Z) - A LLM-Based Ranking Method for the Evaluation of Automatic Counter-Narrative Generation [14.064465097974836]
本稿では,Large Language Model (LLM) を用いた対数ナラティブ(CN)生成の評価手法を提案する。
従来の自動指標は, 人間の判断と相関が低く, 生成したCNと人間の知覚との微妙な関係を捉えることができないことを示す。
論文 参考訳(メタデータ) (2024-06-21T15:11:33Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。