論文の概要: EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing
- arxiv url: http://arxiv.org/abs/2509.26346v1
- Date: Tue, 30 Sep 2025 14:51:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.586541
- Title: EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing
- Title(参考訳): EditReward:インストラクションガイドによる画像編集のためのヒューマンアライン・リワードモデル
- Authors: Keming Wu, Sicong Jiang, Max Ku, Ping Nie, Minghao Liu, Wenhu Chen,
- Abstract要約: mnameは、命令誘導画像編集タスクにおいて、人間の好みと優れた整合性を示す。
mnameはGenAI-Bench、AURORA-Bench、ImagenHub、そして私たちの新しいベンチネームといった確立したベンチマークに対して、最先端の人間相関を実現する。
トレーニングデータセットを備えたmnameがリリースされ、コミュニティがより高品質な画像編集トレーニングデータセットを構築するのに役立つ。
- 参考スコア(独自算出の注目度): 43.239693852521185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, we have witnessed great progress in image editing with natural language instructions. Several closed-source models like GPT-Image-1, Seedream, and Google-Nano-Banana have shown highly promising progress. However, the open-source models are still lagging. The main bottleneck is the lack of a reliable reward model to scale up high-quality synthetic training data. To address this critical bottleneck, we built \mname, trained with our new large-scale human preference dataset, meticulously annotated by trained experts following a rigorous protocol containing over 200K preference pairs. \mname demonstrates superior alignment with human preferences in instruction-guided image editing tasks. Experiments show that \mname achieves state-of-the-art human correlation on established benchmarks such as GenAI-Bench, AURORA-Bench, ImagenHub, and our new \benchname, outperforming a wide range of VLM-as-judge models. Furthermore, we use \mname to select a high-quality subset from the existing noisy ShareGPT-4o-Image dataset. We train Step1X-Edit on the selected subset, which shows significant improvement over training on the full set. This demonstrates \mname's ability to serve as a reward model to scale up high-quality training data for image editing. Furthermore, its strong alignment suggests potential for advanced applications like reinforcement learning-based post-training and test-time scaling of image editing models. \mname with its training dataset will be released to help the community build more high-quality image editing training datasets.
- Abstract(参考訳): 近年,自然言語による画像編集が盛んに行われている。
GPT-Image-1、Seedream、Google-Nano-Bananaといったいくつかのクローズドソースモデルは、非常に有望な進歩を示している。
しかし、オープンソースモデルはまだ遅れている。
主なボトルネックは、高品質な合成トレーニングデータをスケールアップするための信頼性の高い報酬モデルがないことである。
この重要なボトルネックに対処するため、私たちは、200K以上の選好ペアを含む厳格なプロトコルに従って、訓練された専門家によって慎重に注釈付けされた、新しい大規模人間の選好データセットでトレーニングされた \mname を構築しました。
\mnameは、命令誘導画像編集タスクにおいて、人間の好みと優れた整合性を示す。
実験により,GenAI-Bench, AURORA-Bench, ImagenHub, および我々の新しい \benchname などの既存のベンチマークにおいて, \mname が最先端の人間相関を達成し,広範囲の VLM-as-judge モデルより優れていることが示された。
さらに,既存のノイズの多いShareGPT-4o画像データセットから高品質なサブセットを選択するために, \mnameを使用する。
選択したサブセットでStep1X-Editをトレーニングします。
これは、画像編集のための高品質なトレーニングデータをスケールアップする報酬モデルとして機能する、Shamnameの能力を示している。
さらに、その強力なアライメントは、強化学習に基づくポストトレーニングや、画像編集モデルのテストタイムスケーリングといった高度な応用の可能性を示している。
トレーニングデータセットのShamnameがリリースされ、コミュニティがより高品質な画像編集トレーニングデータセットを構築するのに役立つ。
関連論文リスト
- Self-Rewarding Large Vision-Language Models for Optimizing Prompts in Text-to-Image Generation [61.31036260686349]
本稿では,シンプルなユーザプロンプトをテキスト・ツー・イメージ・モデルに洗練されたプロンプトに変換するための新しいプロンプト最適化フレームワークを提案する。
具体的には、ユーザプロンプトを書き換えるために大きな視覚言語モデル(LVLM)を使用し、同時にLVLMを報酬モデルとして使用し、最適化されたプロンプトによって生成された画像の美学とアライメントをスコアする。
努力的な人間のフィードバックの代わりに、私たちはLVLMの以前の知識を利用して報酬、すなわちAIフィードバックを提供します。
論文 参考訳(メタデータ) (2025-05-22T15:05:07Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - MOFI: Learning Image Representations from Noisy Entity Annotated Images [47.6984817573981]
ノイズのあるエンティティアノテート画像から画像表現を学習するための新しい視覚基盤モデルMOFIを提案する。
ノイズの多い画像とテキストのペアから画像にエンティティラベルを自動的に割り当てる手法を提案する。
提案手法では、アルトテキストからエンティティを抽出するために名前付きエンティティ認識モデルを使用し、CLIPモデルを用いて、ペア画像のラベルとして正しいエンティティを選択する。
論文 参考訳(メタデータ) (2023-06-13T17:51:18Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。