論文の概要: HP-Edit: A Human-Preference Post-Training Framework for Image Editing
- arxiv url: http://arxiv.org/abs/2604.19406v1
- Date: Tue, 21 Apr 2026 12:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.767069
- Title: HP-Edit: A Human-Preference Post-Training Framework for Image Editing
- Title(参考訳): HP-Edit: 画像編集のためのヒューマンプレビュー後トレーニングフレームワーク
- Authors: Fan Li, Chonghuinan Wang, Lina Lei, Yuping Qiu, Jiaqi Xu, Jiaxiu Jiang, Xinran Qin, Zhikai Chen, Fenglong Song, Zhixin Wang, Renjing Pei, Wangmeng Zuo,
- Abstract要約: そこで我々は,Human Preference-aligned EditingのためのポストトレーニングフレームワークHP-Editを提案する。
また、RealPref-50Kは8つの共通タスクにまたがる現実世界のデータセットであり、共通オブジェクト編集のバランスをとる。
- 参考スコア(独自算出の注目度): 56.02114960634816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Common image editing tasks typically adopt powerful generative diffusion models as the leading paradigm for real-world content editing. Meanwhile, although reinforcement learning (RL) methods such as Diffusion-DPO and Flow-GRPO have further improved generation quality, efficiently applying Reinforcement Learning from Human Feedback (RLHF) to diffusion-based editing remains largely unexplored, due to a lack of scalable human-preference datasets and frameworks tailored to diverse editing needs. To fill this gap, we propose HP-Edit, a post-training framework for Human Preference-aligned Editing, and introduce RealPref-50K, a real-world dataset across eight common tasks and balancing common object editing. Specifically, HP-Edit leverages a small amount of human-preference scoring data and a pretrained visual large language model (VLM) to develop HP-Scorer--an automatic, human preference-aligned evaluator. We then use HP-Scorer both to efficiently build a scalable preference dataset and to serve as the reward function for post-training the editing model. We also introduce RealPref-Bench, a benchmark for evaluating real-world editing performance. Extensive experiments demonstrate that our approach significantly enhances models such as Qwen-Image-Edit-2509, aligning their outputs more closely with human preference.
- Abstract(参考訳): 一般的な画像編集タスクは、現実世界のコンテンツ編集における主要なパラダイムとして、強力な生成拡散モデルを採用するのが一般的である。
一方、拡散-DPOやフロー-GRPOのような強化学習(RL)手法は、生成品質をさらに向上させたが、多種多様な編集ニーズに合わせたスケーラブルな人為的なデータセットやフレームワークが欠如していることから、人間フィードバックからの強化学習(RLHF)を拡散ベースの編集に効率的に適用することは、ほとんど探索されていない。
このギャップを埋めるため,Human Preference-aligned EditingのためのポストトレーニングフレームワークであるHP-Editを提案し,RealPref-50Kを紹介した。
具体的には、HP-Editは、少数の人間の嗜好スコアデータと事前訓練された視覚的大言語モデル(VLM)を活用して、HP-Scorerを開発する。
次に、HP-Scorerを用いて、スケーラブルな選好データセットを効率的に構築し、編集モデルを後からトレーニングするための報酬関数として機能する。
また,実世界の編集性能を評価するベンチマークであるRealPref-Benchを紹介する。
大規模な実験により,本手法はQwen-Image-Edit-2509のようなモデルを大幅に強化し,出力を人間の好みとより密に一致させることが示されている。
関連論文リスト
- Personalized Image Editing in Text-to-Image Diffusion Models via Collaborative Direct Preference Optimization [11.306247975771013]
C-DPO(Collaborative Preference Optimization)は、画像編集とユーザの好みを一致させる新しい手法である。
提案手法では,各ユーザを動的嗜好グラフのノードとして符号化し,軽量なグラフニューラルネットワークを用いて埋め込みを学習する。
本手法は,ユーザの好みに合わせた編集生成において,ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-11-06T18:59:54Z) - Learning an Image Editing Model without Image Editing Pairs [83.03646586929638]
最近の画像編集モデルは、自然言語編集の指示に従いながら印象的な成果を上げている。
それらは、インプットとターゲットのペアの大きなデータセットによる教師付き微調整に依存している。
現在の回避策は、既存のモデルのゼロショット機能を利用する合成トレーニングペアを使用する。
ペア化されたデータを完全に不要にする新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:57Z) - EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling [71.8265422228785]
強化学習(RL)は有望な解決策を提供するが、画像編集におけるその採用は、高忠実で効率的な報酬信号の欠如によって妨げられている。
我々は、最先端の特殊報酬モデルの開発を中心に、この障壁を克服するための包括的な方法論を提案する。
論文 参考訳(メタデータ) (2025-09-28T14:28:24Z) - PIXELS: Progressive Image Xemplar-based Editing with Latent Surgery [10.594261300488546]
PIXELSと呼ばれる,市販拡散モデルを用いたプログレッシブな例駆動編集のための新しいフレームワークを提案する。
PIXELSは編集のきめ細かい制御を提供し、ピクセルや領域レベルでの調整を可能にする。
我々は,PIXELSが高品質な編集を効率よく行うことを実証し,定量化と人的評価に顕著な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2025-01-16T20:26:30Z) - InstructRL4Pix: Training Diffusion for Image Editing by Reinforcement Learning [31.799923647356458]
本稿では,対象物体の注意図で導かれる画像を生成するために拡散モデルを訓練するための強化学習ガイド画像編集法(InstructRL4Pix)を提案する。
実験結果から、InstructRL4Pixは従来のデータセットの限界を突破し、教師なし学習を用いて、編集目標を最適化し、自然な人間のコマンドに基づいて正確な画像編集を実現することがわかった。
論文 参考訳(メタデータ) (2024-06-14T12:31:48Z) - HIVE: Harnessing Human Feedback for Instructional Visual Editing [127.29436858998064]
本稿では,ヒューマンフィードバックを利用した指導視覚編集(HIVE)のための新しいフレームワークを提案する。
具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、基礎となるユーザの好みをキャプチャする。
次に、推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデル微調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T19:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。