論文の概要: EditHF-1M: A Million-Scale Rich Human Preference Feedback for Image Editing
- arxiv url: http://arxiv.org/abs/2603.14916v1
- Date: Mon, 16 Mar 2026 07:24:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.128167
- Title: EditHF-1M: A Million-Scale Rich Human Preference Feedback for Image Editing
- Title(参考訳): EditHF-1M:画像編集のための100万規模のリッチな人間の選好フィードバック
- Authors: Zitong Xu, Huiyu Duan, Zhongpeng Ji, Xinyun Zhang, Yutao Liu, Xiongkuo Min, Ke Gu, Jian Zhang, Shusong Xu, Jinwei Chen, Bo Li, Guangtao Zhai,
- Abstract要約: 人選好ペアが29万、人選好スコアが148万である画像編集データセットである textbfEditHF-1M を提示する。
また,テキスト誘導画像編集モデルの最適化のために,EditHFを報酬信号として利用するtextbfEditHF-Rewardを導入する。
- 参考スコア(独自算出の注目度): 80.4661213011098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-guided image editing (TIE) models have achieved remarkable progress, while many edited images still suffer from issues such as artifacts, unexpected editings, unaesthetic contents. Although some benchmarks and methods have been proposed for evaluating edited images, scalable evaluation models are still lacking, which limits the development of human feedback reward models for image editing. To address the challenges, we first introduce \textbf{EditHF-1M}, a million-scale image editing dataset with over 29M human preference pairs and 148K human mean opinion ratings, both evaluated from three dimensions, \textit{i.e.}, visual quality, instruction alignment, and attribute preservation. Based on EditHF-1M, we propose \textbf{EditHF}, a multimodal large language model (MLLM) based evaluation model, to provide human-aligned feedback from image editing. Finally, we introduce \textbf{EditHF-Reward}, which utilizes EditHF as the reward signal to optimize the text-guided image editing models through reinforcement learning. Extensive experiments show that EditHF achieves superior alignment with human preferences and demonstrates strong generalization on other datasets. Furthermore, we fine-tune the Qwen-Image-Edit using EditHF-Reward, achieving significant performance improvements, which demonstrates the ability of EditHF to serve as a reward model to scale-up the image editing. Both the dataset and code will be released in our GitHub repository: https://github.com/IntMeGroup/EditHF.
- Abstract(参考訳): 最近のテキスト誘導画像編集(TIE)モデルは目覚ましい進歩を遂げているが、多くの編集済み画像は、アーティファクト、予期せぬ編集、審美的内容といった問題に悩まされている。
編集画像の評価にはいくつかのベンチマークや手法が提案されているが、スケーラブルな評価モデルはまだ不足しており、画像編集のための人間のフィードバック報酬モデルの開発が制限されている。
この課題に対処するために,まず,2900万以上の人選好ペアと148万件の人選好評価を持つ100万規模の画像編集データセットである \textbf{EditHF-1M} を紹介した。
EditHF-1Mに基づいて,マルチモーダル大言語モデル(MLLM)に基づく評価モデルである \textbf{EditHF} を提案する。
最後に, EditHFを報奨信号として利用し, 強化学習によるテキスト誘導画像編集モデルの最適化を行う, \textbf{EditHF-Reward}を紹介する。
大規模な実験により、EditHFは人間の好みと優れた整合性を示し、他のデータセットに対して強力な一般化を示す。
さらに、EditHF-Rewardを用いてQwen-Image-Editを微調整し、大幅な性能向上を実現し、EditHFが画像編集をスケールアップするための報酬モデルとして機能することを示す。
データセットとコードはGitHubリポジトリでリリースされます。
関連論文リスト
- Understanding the Implicit User Intention via Reasoning with Large Language Model for Image Editing [23.69189799564107]
既存の画像編集手法は、単純な編集命令をうまく処理できる。
複雑な編集命令を扱うためには、大きな言語モデル(LLM)と拡散モデル(DM)を共同で微調整する必要があることが多い。
我々は,textbfLLM textbfReasoning (CIELR) による textbfComplex textbfImage textbfEditing と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-10-31T10:06:28Z) - Visual Autoregressive Modeling for Instruction-Guided Image Editing [97.04821896251681]
画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。
VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。
1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
論文 参考訳(メタデータ) (2025-08-21T17:59:32Z) - GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing [60.66800567924348]
テキスト誘導画像編集モデルを評価するための新しいベンチマークを導入する。
このベンチマークには、20種類のコンテンツカテゴリにわたる高品質な編集例が1000以上含まれている。
我々は、GPT-Image-1をいくつかの最先端編集モデルと比較する大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-05-16T17:55:54Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。
まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。
次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z) - HIVE: Harnessing Human Feedback for Instructional Visual Editing [127.29436858998064]
本稿では,ヒューマンフィードバックを利用した指導視覚編集(HIVE)のための新しいフレームワークを提案する。
具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、基礎となるユーザの好みをキャプチャする。
次に、推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデル微調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T19:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。