Fugu-MT 論文翻訳(概要): DyCoRM: Dynamic Criterion-Aware Reward Modeling for Text-to-Image Generation

論文の概要: DyCoRM: Dynamic Criterion-Aware Reward Modeling for Text-to-Image Generation

arxiv url: http://arxiv.org/abs/2605.25876v1
Date: Mon, 25 May 2026 14:04:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:20.24581
Title: DyCoRM: Dynamic Criterion-Aware Reward Modeling for Text-to-Image Generation
Title（参考訳）: DyCoRM:テキスト・画像生成のための動的基準対応リワードモデリング
Authors: Jiaying Qian, Ziheng Jia, Qian Zhang, Zicheng Zhang, Jiayi Guo, Junqi Zhang, Guangtao Zhai, Xiongkuo Min,
Abstract要約: 我々は,タスク関連基準を根拠として,基準対応優先比較を行う動的・基準対応報酬モデルDyCoRMを提案する。また、T2I画像の選択に基準認識報酬モデルを適用するDyCoPickについても紹介する。
参考スコア（独自算出の注目度）: 94.61152963112704
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the continued advancement of text-to-image (T2I) generation, producing high-quality images is becoming increasingly attainable; consequently, user demands are shifting toward images that better satisfy their specific requirements. As reward models play an increasingly important role in assessing whether generated images align with user preference, this trend introduces an important challenge for reward modeling: rather than relying solely on static and general evaluation dimensions, reward models should account for the task-relevant and fine-grained criteria through which users assess whether generated images meet their specific requirements. To address this challenge, we propose DyCoRM, a dynamic, criterion-aware reward model that grounds task-relevant criteria and performs criterion-aware preference comparison. To support this setting, we construct DyCoDataset-20K, which provides dynamic criteria together with criterion-level annotations, and further derive DyCoBench-1K, a benchmark for systematically evaluating reward models under dynamic criteria. We further introduce DyCoPick, which applies criterion-aware reward modeling to selecting T2I images. Our contributions establish the first reward modeling framework for dynamic and fine-grained evaluation and practical application in T2I generation.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)生成の継続的な進歩により、高品質な画像の生成はますます達成可能になり、ユーザ要求は特定の要求を満たす画像へとシフトしている。報酬モデルが、生成した画像がユーザの好みに合致するかどうかを評価する上で、ますます重要な役割を担っているため、この傾向は報酬モデリングに重要な課題をもたらす。この課題に対処するため,課題関連基準を根拠として,基準対応優先比較を行う動的基準対応報酬モデルであるDyCoRMを提案する。この設定をサポートするために、基準レベルのアノテーションとともに動的基準を提供するDyCoDataset-20Kを構築し、さらに動的基準の下で報酬モデルを体系的に評価するベンチマークであるDyCoBench-1Kを導出する。さらにDyCoPickを導入し,T2I画像の選択に基準認識報酬モデルを適用した。我々の貢献は、動的かつきめ細かな評価のための最初の報酬モデリングフレームワークを確立し、T2I生成における実践的な応用を実現した。

関連論文リスト

A Sanity Check on Composed Image Retrieval [91.95275287747499]
Composed Image Retrieval (CIR) は、参照画像からなるクエリと、所望の修正を指定する相対的なキャプションに基づいて、ターゲット画像を取得することを目的としている。 FISD(Fully-Informed Semantically-Diverse benchmark)は、参照ターゲット画像対の変数を正確に制御するために生成モデルを利用する。本稿では,対話型シナリオにおける既存モデルの可能性を探るためのマルチラウンドエージェント評価フレームワークを提案する。
論文参考訳（メタデータ） (2026-04-14T15:52:22Z)
Q-REAL: Towards Realism and Plausibility Evaluation for AI-Generated Content [71.46991494014382]
本稿では,AI生成画像におけるリアリズムと妥当性の詳細な評価のための新しいデータセットであるQ-Realを紹介する。 Q-Realは、人気のあるテキスト・ツー・イメージ・モデルによって生成される3,088のイメージで構成されている。そこで本研究では,Q-Real Benchを2つの課題,すなわち判断と推論による根拠付けに基づいて評価する。
論文参考訳（メタデータ） (2025-11-21T02:43:17Z)
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。 OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文参考訳（メタデータ） (2025-06-09T17:50:21Z)
CARMO: Dynamic Criteria Generation for Context-Aware Reward Modelling [27.86204841898399]
大規模な言語モデルでのリワードモデリングは、ハッキングに報奨を与える可能性がある。本稿では,この問題を緩和するためにコンテキストアウェア・リワード・モデリング(CARMO)を提案する。我々は、生成モデルに対するゼロショット設定における新しい最先端性能を確立し、Reward Benchの2.1%の改善を実現した。
論文参考訳（メタデータ） (2024-10-28T21:18:49Z)
Fashion Image-to-Image Translation for Complementary Item Retrieval [13.88174783842901]
本稿では,ジェネレーティブ・コンパティビリティ・モデル(GeCo)を提案する。 3つのデータセットの評価によると、GeCoは最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2024-08-19T09:50:20Z)
IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-17T17:07:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。