論文の概要: Early Timestep Zero-Shot Candidate Selection for Instruction-Guided Image Editing
- arxiv url: http://arxiv.org/abs/2504.13490v1
- Date: Fri, 18 Apr 2025 05:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 18:58:03.589965
- Title: Early Timestep Zero-Shot Candidate Selection for Instruction-Guided Image Editing
- Title(参考訳): 指導誘導画像編集のための早期ゼロショット候補選択
- Authors: Joowon Kim, Ziseok Lee, Donghyeon Cho, Sanghyun Jo, Yeonsung Jung, Kyungsu Kim, Eunho Yang,
- Abstract要約: ELECT (Early-timestep Latent Evaluation for Candidate Selection) は、早期拡散時の背景ミスマッチを推定することにより、信頼性の高い種を選択するフレームワークである。
バックグラウンドの不整合スコアによってシード候補をランク付けし、編集性を維持しながら、バックグラウンド一貫性に基づいて、不適切なサンプルを早期にフィルタリングする。
実験の結果、ELECTは計算コスト(平均で41%削減)を削減し、バックグラウンドの一貫性と命令の順守を改善し、外部の監督や訓練なしに失敗するケースで約40%の成功率を達成した。
- 参考スコア(独自算出の注目度): 32.56049667145546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in diffusion models, achieving reliable image generation and editing remains challenging due to the inherent diversity induced by stochastic noise in the sampling process. Instruction-guided image editing with diffusion models offers user-friendly capabilities, yet editing failures, such as background distortion, frequently occur. Users often resort to trial and error, adjusting seeds or prompts to achieve satisfactory results, which is inefficient. While seed selection methods exist for Text-to-Image (T2I) generation, they depend on external verifiers, limiting applicability, and evaluating multiple seeds increases computational complexity. To address this, we first establish a multiple-seed-based image editing baseline using background consistency scores, achieving Best-of-N performance without supervision. Building on this, we introduce ELECT (Early-timestep Latent Evaluation for Candidate Selection), a zero-shot framework that selects reliable seeds by estimating background mismatches at early diffusion timesteps, identifying the seed that retains the background while modifying only the foreground. ELECT ranks seed candidates by a background inconsistency score, filtering unsuitable samples early based on background consistency while preserving editability. Beyond standalone seed selection, ELECT integrates into instruction-guided editing pipelines and extends to Multimodal Large-Language Models (MLLMs) for joint seed and prompt selection, further improving results when seed selection alone is insufficient. Experiments show that ELECT reduces computational costs (by 41 percent on average and up to 61 percent) while improving background consistency and instruction adherence, achieving around 40 percent success rates in previously failed cases - without any external supervision or training.
- Abstract(参考訳): 近年の拡散モデルの発展にもかかわらず、サンプリング過程における確率的ノイズによって引き起こされる固有の多様性のため、信頼性の高い画像生成と編集が困難である。
拡散モデルを用いたインストラクション誘導画像編集は、ユーザフレンドリな機能を提供するが、バックグラウンド歪みなどのエラーの編集は頻繁に行われる。
ユーザーはしばしば試行錯誤に頼り、種子やプロンプトを調整して満足な結果を得るが、これは非効率である。
テキスト・トゥ・イメージ(T2I)生成のためのシード選択法は存在するが、それらは外部検証器に依存し、適用性を制限するとともに、複数のシードを評価することで計算複雑性が増大する。
そこで我々はまず,背景整合性スコアを用いたマルチシード画像編集ベースラインを構築し,監督なしにベスト・オブ・Nのパフォーマンスを達成した。
ELECT(Early-timestep Latent Evaluation for Candidate Selection)は,初期拡散時間における背景ミスマッチを推定し,前景のみを修正しながら背景を保持する種子を同定し,信頼性の高い種子を選択するゼロショットフレームワークである。
ELECTは、バックグラウンド不整合スコアでシード候補をランク付けし、編集性を維持しながら、バックグラウンド一貫性に基づいて、不適切なサンプルを早期にフィルタリングする。
スタンドアロンのシード選択以外にも、ELECTは命令誘導編集パイプラインに統合され、ジョイントシードとプロンプトセレクションのためのMultimodal Large-Language Models (MLLMs)に拡張され、シード選択だけでは不十分な結果が改善される。
実験によると、ELECTは計算コスト(平均で41%、最大で61%)を削減し、バックグラウンドの一貫性と命令の順守を改善し、これまで失敗したケースで約40%の成功率を達成した。
関連論文リスト
- PostEdit: Posterior Sampling for Efficient Zero-Shot Image Editing [63.38854614997581]
拡散サンプリングプロセスを制御するために後続のスキームを組み込んだPostEditを導入する。
提案したPostEditは、未編集領域を正確に保存しながら、最先端の編集性能を実現する。
インバージョンもトレーニングも不要で、約1.5秒と18GBのGPUメモリを必要とするため、高品質な結果が得られる。
論文 参考訳(メタデータ) (2024-10-07T09:04:50Z) - Rejection Sampling IMLE: Designing Priors for Better Few-Shot Image
Synthesis [7.234618871984921]
新たな研究分野は、限られたトレーニングデータで深層生成モデルを学ぶことを目的としている。
トレーニングに使用する事前分布を変更する新しいアプローチであるRS-IMLEを提案する。
これにより、既存のGANやIMLEベースの手法に比べて画質が大幅に向上する。
論文 参考訳(メタデータ) (2024-09-26T00:19:42Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - TiNO-Edit: Timestep and Noise Optimization for Robust Diffusion-Based Image Editing [12.504661526518234]
我々は、編集中のノイズパターンと拡散時間の最適化に焦点をあてたSDベースのTiNO-Editを提案する。
SDの潜在領域で動作する新しい損失関数のセットを提案し、最適化を大幅に高速化する。
本手法は,Textual InversionやDreamBoothなど,SDのバリエーションに容易に適用することができる。
論文 参考訳(メタデータ) (2024-04-17T07:08:38Z) - Diffusion Posterior Proximal Sampling for Image Restoration [27.35952624032734]
我々は拡散に基づく画像復元のための洗練されたパラダイムを提案する。
具体的には,各生成段階における測定値と一致したサンプルを選択する。
選択に使用する候補サンプルの数は、タイムステップの信号対雑音比に基づいて適応的に決定される。
論文 参考訳(メタデータ) (2024-02-25T04:24:28Z) - The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling [78.6155095947769]
Skip-Tuningは、スキップ接続上でシンプルだが驚くほど効果的にトレーニング不要なチューニング方法である。
ImageNet 64 では 19 NFE (1.75) で事前訓練された EDM に対して100% FID の改善が可能である。
Skip-Tuningは画素空間におけるスコアマッチング損失を増加させる一方、特徴空間における損失は減少する。
論文 参考訳(メタデータ) (2024-02-23T08:05:23Z) - Test-Time Degradation Adaptation for Open-Set Image Restoration [35.94643881619977]
オープンセット画像復元のためのテスト時間劣化適応フレームワークを提案する。
本手法はタスク固有の手法よりも性能が優れている。
論文 参考訳(メタデータ) (2023-12-02T13:35:48Z) - Diverse Data Augmentation with Diffusions for Effective Test-time Prompt
Tuning [73.75282761503581]
DiffTPTを提案する。DiffTPTは,事前学習した拡散モデルを用いて,多種多様な情報データを生成する。
DiffTPTがゼロショット精度を平均5.13%向上することを示す。
論文 参考訳(メタデータ) (2023-08-11T09:36:31Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。