論文の概要: Learning an Image Editing Model without Image Editing Pairs
- arxiv url: http://arxiv.org/abs/2510.14978v1
- Date: Thu, 16 Oct 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:15.01122
- Title: Learning an Image Editing Model without Image Editing Pairs
- Title(参考訳): 画像編集用ペアを使わずに画像編集モデルを学ぶ
- Authors: Nupur Kumari, Sheng-Yu Wang, Nanxuan Zhao, Yotam Nitzan, Yuheng Li, Krishna Kumar Singh, Richard Zhang, Eli Shechtman, Jun-Yan Zhu, Xun Huang,
- Abstract要約: 最近の画像編集モデルは、自然言語編集の指示に従いながら印象的な成果を上げている。
それらは、インプットとターゲットのペアの大きなデータセットによる教師付き微調整に依存している。
現在の回避策は、既存のモデルのゼロショット機能を利用する合成トレーニングペアを使用する。
ペア化されたデータを完全に不要にする新たなトレーニングパラダイムを提案する。
- 参考スコア(独自算出の注目度): 83.03646586929638
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent image editing models have achieved impressive results while following natural language editing instructions, but they rely on supervised fine-tuning with large datasets of input-target pairs. This is a critical bottleneck, as such naturally occurring pairs are hard to curate at scale. Current workarounds use synthetic training pairs that leverage the zero-shot capabilities of existing models. However, this can propagate and magnify the artifacts of the pretrained model into the final trained model. In this work, we present a new training paradigm that eliminates the need for paired data entirely. Our approach directly optimizes a few-step diffusion model by unrolling it during training and leveraging feedback from vision-language models (VLMs). For each input and editing instruction, the VLM evaluates if an edit follows the instruction and preserves unchanged content, providing direct gradients for end-to-end optimization. To ensure visual fidelity, we incorporate distribution matching loss (DMD), which constrains generated images to remain within the image manifold learned by pretrained models. We evaluate our method on standard benchmarks and include an extensive ablation study. Without any paired data, our method performs on par with various image editing diffusion models trained on extensive supervised paired data, under the few-step setting. Given the same VLM as the reward model, we also outperform RL-based techniques like Flow-GRPO.
- Abstract(参考訳): 最近の画像編集モデルは、自然言語編集の指示に従い、印象的な結果を得たが、それらは入力とターゲットのペアの大きなデータセットによる教師付き微調整に依存している。
このような自然発生のペアは、大規模にキュレートすることが難しいため、これは重要なボトルネックである。
現在の回避策は、既存のモデルのゼロショット機能を利用する合成トレーニングペアを使用する。
しかし、これは事前訓練されたモデルのアーティファクトを最終訓練されたモデルに伝播し、拡大することができる。
本研究では,ペアデータを完全に不要にする新たなトレーニングパラダイムを提案する。
本手法は,視覚言語モデル(VLM)からのフィードバックを活用することにより,学習中に展開する数ステップの拡散モデルを直接最適化する。
各入力および編集命令に対して、VLMは、編集が命令に従うかどうかを評価し、変化のないコンテンツを保存し、エンドツーエンドの最適化に直接的な勾配を与える。
視覚的忠実度を確保するために,予め訓練されたモデルで学習した画像多様体内に生成した画像の保持を制約する分布マッチング損失(DMD)を組み込む。
本手法を標準ベンチマークで評価し,広範囲にわたるアブレーション研究を含む。
提案手法は,2つのペアデータを用いずに,広範囲な教師付きペアデータに基づいて訓練された様々な画像編集拡散モデルに匹敵する性能を示す。
また、報酬モデルと同じVLMを与えられた場合、Flow-GRPOのようなRLベースの手法よりも優れています。
関連論文リスト
- Regularized Personalization of Text-to-Image Diffusion Models without Distributional Drift [5.608240462042483]
テキスト・ツー・イメージ拡散モデルを用いたパーソナライズには、事前訓練されたモデルを、少数の画像例だけで新規な被験者に適応させる必要がある。
フォーッティングは意図しない分布のドリフトを意味し、モデルの出力分布は、元の事前訓練されたモデルから逸脱する。
本稿では, 事前学習分布からの偏差を明示的に制限するリプシッツ境界定式化に基づく新たな学習目標を提案する。
論文 参考訳(メタデータ) (2025-05-26T05:03:59Z) - Decouple-Then-Merge: Finetune Diffusion Models as Multi-Task Learning [45.89372687373466]
拡散モデルは、ノイズ破損の各ステップを反転させる一連のモデルを学ぶことで訓練される。
パラメータはトレーニング効率を高めるために、複数のタイムステップで完全に共有されます。
しかし、デノナイジングタスクは各タイミングで異なるため、異なるタイミングで計算された勾配は相反する可能性があり、画像生成の全体的な性能を低下させる可能性がある。
論文 参考訳(メタデータ) (2024-10-09T08:19:25Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - SeNM-VAE: Semi-Supervised Noise Modeling with Hierarchical Variational Autoencoder [13.453138169497903]
SeNM-VAEは、ペアとアンペアの両方のデータセットを利用して、現実的な劣化データを生成する半教師付きノイズモデリング手法である。
実世界の画像認識と超分解能タスクのためのペアトレーニングサンプルを生成するために,本手法を用いた。
提案手法は, 合成劣化画像の品質を, 他の不対とペアのノイズモデリング法と比較して向上させる。
論文 参考訳(メタデータ) (2024-03-26T09:03:40Z) - Do the Frankenstein, or how to achieve better out-of-distribution
performance with manifold mixing model soup [1.0878040851637998]
画像分類のためのCLIPモデルを微調整すると, 融合モデルにより分配性能が大幅に向上することを示す。
また、ファインタニングが行われた元のデータセットに対して、より正確な精度を提供する。
論文 参考訳(メタデータ) (2023-08-28T06:13:32Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。