論文の概要: Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning
- arxiv url: http://arxiv.org/abs/2503.18406v2
- Date: Tue, 25 Mar 2025 05:30:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 10:43:40.333534
- Title: Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning
- Title(参考訳): Instruct-CLIP:コントラスト学習を用いた自動データ精算による指導誘導画像編集の改善
- Authors: Sherry X. Chen, Misha Sra, Pradeep Sen,
- Abstract要約: Instruct-CLIPは、オリジナルの画像と編集された画像間のセマンティックな変化を学習し、既存のデータセットの命令を洗練し、より良く調整する自己教師型手法である。
Instruct-CLIPを使用して、InstructPix2Pixデータセットを修正し、120K以上の洗練されたサンプルを取得して、モデルを微調整します。
- 参考スコア(独自算出の注目度): 13.596657508317275
- License:
- Abstract: Although natural language instructions offer an intuitive way to guide automated image editing, deep-learning models often struggle to achieve high-quality results, largely due to the difficulty of creating large, high-quality training datasets. To do this, previous approaches have typically relied on text-to-image (T2I) generative models to produce pairs of original and edited images that simulate the input/output of an instruction-guided image-editing model. However, these image pairs often fail to align with the specified edit instructions due to the limitations of T2I models, which negatively impacts models trained on such datasets. To address this, we present Instruct-CLIP (I-CLIP), a selfsupervised method that learns the semantic changes between original and edited images to refine and better align the instructions in existing datasets. Furthermore, we adapt Instruct-CLIP to handle noisy latent images and diffusion timesteps so that it can be used to train latent diffusion models (LDMs) and efficiently enforce alignment between the edit instruction and the image changes in latent space at any step of the diffusion pipeline. We use Instruct-CLIP to correct the InstructPix2Pix dataset and get over 120K refined samples we then use to fine-tune their model, guided by our novel I-CLIP-based loss function. The resulting model can produce edits that are more aligned with the given instructions. Our code and dataset are available at https://github.com/SherryXTChen/Instruct-CLIP.git.
- Abstract(参考訳): 自然言語命令は、自動画像編集をガイドする直感的な方法を提供するが、ディープラーニングモデルは、大きな高品質のトレーニングデータセットを作成するのが難しいため、高品質な結果を達成するのに苦労することが多い。
これを実現するために、従来のアプローチはテキスト・トゥ・イメージ(T2I)生成モデルに依存しており、命令誘導画像編集モデルの入力/出力をシミュレートする原画像と編集画像のペアを生成する。
しかしながら、これらの画像ペアは、T2Iモデルの制限のため、指定された編集命令と一致しないことが多い。
そこで本研究では,オリジナル画像と編集画像間のセマンティックな変化を学習し,既存のデータセットにおける命令の洗練と整合性を向上する自己教師型手法であるInstruct-CLIP(I-CLIP)を提案する。
さらに,Instruct-CLIPを用いて遅延画像と拡散タイムステップを処理し,遅延拡散モデル(LDM)をトレーニングし,拡散パイプラインの任意のステップにおいて遅延空間における画像変化と編集命令のアライメントを効率的に行う。
Instruct-CLIPを使用して、InstructPix2Pixデータセットを修正し、120K以上の洗練されたサンプルを取得し、新しいI-CLIPベースの損失関数でガイドされたモデルを微調整します。
得られたモデルは、与えられた命令により整合した編集を生成することができる。
私たちのコードとデータセットはhttps://github.com/SherryXTChen/Instruct-CLIP.git.comで公開されています。
関連論文リスト
- UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。
CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。
CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-12-19T18:59:58Z) - GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis [10.47359822447001]
本稿では,複雑な多段階生成のタスクを3段階に分解する,T2I合成の代替パラダイムを提案する。
提案手法は,モジュール性が高く,トレーニングが自由であり,画像生成モデルと編集モデルの組み合わせに対して適用可能であるという事実から,その強みを導出する。
論文 参考訳(メタデータ) (2024-12-08T22:29:56Z) - LoRA of Change: Learning to Generate LoRA for the Editing Instruction from A Single Before-After Image Pair [116.48684498656871]
視覚的指示を用いた画像編集のためのLoRA of Change (LoC) フレームワークを提案する。
我々は、命令固有のLoRAを学習し、事前のイメージペアで「変更」を符号化し、モデルの解釈可能性と再利用性を高める。
本モデルでは,ユーザ意図に整合した高品質な画像を生成し,現実世界の視覚的指示の幅広い範囲をサポートする。
論文 参考訳(メタデータ) (2024-11-28T13:55:06Z) - InstructRL4Pix: Training Diffusion for Image Editing by Reinforcement Learning [31.799923647356458]
本稿では,対象物体の注意図で導かれる画像を生成するために拡散モデルを訓練するための強化学習ガイド画像編集法(InstructRL4Pix)を提案する。
実験結果から、InstructRL4Pixは従来のデータセットの限界を突破し、教師なし学習を用いて、編集目標を最適化し、自然な人間のコマンドに基づいて正確な画像編集を実現することがわかった。
論文 参考訳(メタデータ) (2024-06-14T12:31:48Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - Self-correcting LLM-controlled Diffusion Models [83.26605445217334]
自己補正LPM制御拡散(SLD)を導入する
SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。
提案手法は, 生成数, 属性結合, 空間的関係において, 不正確な世代の大部分を補正することができる。
論文 参考訳(メタデータ) (2023-11-27T18:56:37Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - InstructPix2Pix: Learning to Follow Image Editing Instructions [103.77092910685764]
人間の指示から画像を編集する手法を提案する。
入力画像とモデルに何をすべきかを指示する命令が与えられたら、我々のモデルはこれらの命令に従って画像を編集します。
入力画像と書き起こしの多様なコレクションに対して、魅力的な編集結果を示す。
論文 参考訳(メタデータ) (2022-11-17T18:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。