論文の概要: Multi-Reward as Condition for Instruction-based Image Editing
- arxiv url: http://arxiv.org/abs/2411.04713v1
- Date: Wed, 06 Nov 2024 05:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:38:33.130703
- Title: Multi-Reward as Condition for Instruction-based Image Editing
- Title(参考訳): インストラクションに基づく画像編集の条件としてのマルチリワード
- Authors: Xin Gu, Ming Li, Libo Zhang, Fan Chen, Longyin Wen, Tiejian Luo, Sijie Zhu,
- Abstract要約: そこで本研究では,地味画像の品質を改良する代わりに,多視点報酬データを用いたトレーニングデータ品質問題に対処することを提案する。
実験により、我々のマルチリワード条件付きモデルは、2つの人気のある編集パイプラインにおいて非リワードモデルよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 32.77114231615961
- License:
- Abstract: High-quality training triplets (instruction, original image, edited image) are essential for instruction-based image editing. Predominant training datasets (e.g., InsPix2Pix) are created using text-to-image generative models (e.g., Stable Diffusion, DALL-E) which are not trained for image editing. Accordingly, these datasets suffer from inaccurate instruction following, poor detail preserving, and generation artifacts. In this paper, we propose to address the training data quality issue with multi-perspective reward data instead of refining the ground-truth image quality. 1) we first design a quantitative metric system based on best-in-class LVLM (Large Vision Language Model), i.e., GPT-4o in our case, to evaluate the generation quality from 3 perspectives, namely, instruction following, detail preserving, and generation quality. For each perspective, we collected quantitative score in $0\sim 5$ and text descriptive feedback on the specific failure points in ground-truth edited images, resulting in a high-quality editing reward dataset, i.e., RewardEdit20K. 2) We further proposed a novel training framework to seamlessly integrate the metric output, regarded as multi-reward, into editing models to learn from the imperfect training triplets. During training, the reward scores and text descriptions are encoded as embeddings and fed into both the latent space and the U-Net of the editing models as auxiliary conditions. During inference, we set these additional conditions to the highest score with no text description for failure points, to aim at the best generation outcome. Experiments indicate that our multi-reward conditioned model outperforms its no-reward counterpart on two popular editing pipelines, i.e., InsPix2Pix and SmartEdit. The code and dataset will be released.
- Abstract(参考訳): インストラクションベースの画像編集には、高品質なトレーニング三脚(インストラクション、オリジナル画像、編集画像)が不可欠である。
事前トレーニングデータセット(例:InsPix2Pix)は、画像編集のトレーニングを受けていないテキストから画像生成モデル(例:Stable Diffusion、DALL-E)を使用して作成される。
したがって、これらのデータセットは、次の不正確な命令、不適切な詳細保存、および生成アーティファクトに悩まされる。
本稿では,地味画像の品質を改良する代わりに,多視点報酬データを用いたトレーニングデータ品質問題に対処することを提案する。
1)最良クラスLVLM(Large Vision Language Model, GPT-4o)に基づく定量的計量系をまず設計し, 生成品質を3つの視点, 命令追従, 詳細保存, 生成品質から評価する。
それぞれの視点で,0\sim 5$の定量的スコアと,地文編集画像の特定の障害点に関するテキスト記述的フィードバックを収集し,高品質な編集報酬データセット,すなわちRewardEdit20Kを得た。
2) 不完全なトレーニングトレーレットから学習するためのモデルに,マルチリワード(multi-reward)とみなすメトリックアウトプットをシームレスに統合する新たなトレーニングフレームワークを提案する。
トレーニング中、報酬スコアとテキスト記述は埋め込みとしてエンコードされ、編集モデルの潜在空間とU-Netの両方に補助条件として供給される。
推論において,これらの追加条件を障害点のテキスト記述のない最高点に設定し,最適な生成結果を目指す。
実験の結果、我々のマルチリワード条件付きモデルは、InsPix2PixとSmartEditという2つの一般的な編集パイプラインにおいて、非リワードモデルよりも優れていることが示された。
コードとデータセットがリリースされる。
関連論文リスト
- DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z) - UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。
CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。
CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-12-19T18:59:58Z) - GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis [10.47359822447001]
本稿では,複雑な多段階生成のタスクを3段階に分解する,T2I合成の代替パラダイムを提案する。
提案手法は,モジュール性が高く,トレーニングが自由であり,画像生成モデルと編集モデルの組み合わせに対して適用可能であるという事実から,その強みを導出する。
論文 参考訳(メタデータ) (2024-12-08T22:29:56Z) - AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision [32.33777277141083]
我々は,7種類の画像編集タスクをシームレスに処理できる全能なエディタであるomnieditを提案する。
omnieditは7つの異なるスペシャリストモデルの監督を利用して、タスクカバレッジを確保することで訓練される。
当社のモデルが野生のどんな画像でも扱えるように、アスペクト比の異なる画像を提供しています。
論文 参考訳(メタデータ) (2024-11-11T18:21:43Z) - Learning Action and Reasoning-Centric Image Editing from Videos and Simulations [45.637947364341436]
AURORAデータセット(AURORA data)は、ビデオやシミュレーションエンジンから人間に注釈を付け、キュレートされた高品質なトレーニングデータの集合である。
AURORA-finetuned model on a new expert-curated benchmark across 8 various editing task。
我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。
論文 参考訳(メタデータ) (2024-07-03T19:36:33Z) - ReasonPix2Pix: Instruction Reasoning Dataset for Advanced Image Editing [77.12834553200632]
本稿ではReasonPix2Pixを紹介した。
データセットの特徴は,1)推論命令,2)細かなカテゴリのよりリアルな画像,3)入力画像と編集画像のばらつきの増大である。
教師付き条件下でのデータセットの微調整では、タスクが推論を必要とするか否かに関わらず、命令編集タスクにおいて優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-18T06:03:42Z) - Learning to Follow Object-Centric Image Editing Instructions Faithfully [26.69032113274608]
自然言語命令による画像編集に焦点をあてる現在のアプローチは、自動生成されたペアデータに依存している。
我々は、ペアデータの品質を大幅に改善し、監視信号を強化する。
我々のモデルは、最先端のベースラインよりもきめ細かいオブジェクト中心の編集を行うことができる。
論文 参考訳(メタデータ) (2023-10-29T20:39:11Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - InstructPix2Pix: Learning to Follow Image Editing Instructions [103.77092910685764]
人間の指示から画像を編集する手法を提案する。
入力画像とモデルに何をすべきかを指示する命令が与えられたら、我々のモデルはこれらの命令に従って画像を編集します。
入力画像と書き起こしの多様なコレクションに対して、魅力的な編集結果を示す。
論文 参考訳(メタデータ) (2022-11-17T18:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。