論文の概要: Early Timestep Zero-Shot Candidate Selection for Instruction-Guided Image Editing
- arxiv url: http://arxiv.org/abs/2504.13490v1
- Date: Fri, 18 Apr 2025 05:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 18:58:03.589965
- Title: Early Timestep Zero-Shot Candidate Selection for Instruction-Guided Image Editing
- Title(参考訳): 指導誘導画像編集のための早期ゼロショット候補選択
- Authors: Joowon Kim, Ziseok Lee, Donghyeon Cho, Sanghyun Jo, Yeonsung Jung, Kyungsu Kim, Eunho Yang,
- Abstract要約: ELECT (Early-timestep Latent Evaluation for Candidate Selection) は、早期拡散時の背景ミスマッチを推定することにより、信頼性の高い種を選択するフレームワークである。
バックグラウンドの不整合スコアによってシード候補をランク付けし、編集性を維持しながら、バックグラウンド一貫性に基づいて、不適切なサンプルを早期にフィルタリングする。
実験の結果、ELECTは計算コスト(平均で41%削減)を削減し、バックグラウンドの一貫性と命令の順守を改善し、外部の監督や訓練なしに失敗するケースで約40%の成功率を達成した。
- 参考スコア(独自算出の注目度): 32.56049667145546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in diffusion models, achieving reliable image generation and editing remains challenging due to the inherent diversity induced by stochastic noise in the sampling process. Instruction-guided image editing with diffusion models offers user-friendly capabilities, yet editing failures, such as background distortion, frequently occur. Users often resort to trial and error, adjusting seeds or prompts to achieve satisfactory results, which is inefficient. While seed selection methods exist for Text-to-Image (T2I) generation, they depend on external verifiers, limiting applicability, and evaluating multiple seeds increases computational complexity. To address this, we first establish a multiple-seed-based image editing baseline using background consistency scores, achieving Best-of-N performance without supervision. Building on this, we introduce ELECT (Early-timestep Latent Evaluation for Candidate Selection), a zero-shot framework that selects reliable seeds by estimating background mismatches at early diffusion timesteps, identifying the seed that retains the background while modifying only the foreground. ELECT ranks seed candidates by a background inconsistency score, filtering unsuitable samples early based on background consistency while preserving editability. Beyond standalone seed selection, ELECT integrates into instruction-guided editing pipelines and extends to Multimodal Large-Language Models (MLLMs) for joint seed and prompt selection, further improving results when seed selection alone is insufficient. Experiments show that ELECT reduces computational costs (by 41 percent on average and up to 61 percent) while improving background consistency and instruction adherence, achieving around 40 percent success rates in previously failed cases - without any external supervision or training.
- Abstract(参考訳): 近年の拡散モデルの発展にもかかわらず、サンプリング過程における確率的ノイズによって引き起こされる固有の多様性のため、信頼性の高い画像生成と編集が困難である。
拡散モデルを用いたインストラクション誘導画像編集は、ユーザフレンドリな機能を提供するが、バックグラウンド歪みなどのエラーの編集は頻繁に行われる。
ユーザーはしばしば試行錯誤に頼り、種子やプロンプトを調整して満足な結果を得るが、これは非効率である。
テキスト・トゥ・イメージ(T2I)生成のためのシード選択法は存在するが、それらは外部検証器に依存し、適用性を制限するとともに、複数のシードを評価することで計算複雑性が増大する。
そこで我々はまず,背景整合性スコアを用いたマルチシード画像編集ベースラインを構築し,監督なしにベスト・オブ・Nのパフォーマンスを達成した。
ELECT(Early-timestep Latent Evaluation for Candidate Selection)は,初期拡散時間における背景ミスマッチを推定し,前景のみを修正しながら背景を保持する種子を同定し,信頼性の高い種子を選択するゼロショットフレームワークである。
ELECTは、バックグラウンド不整合スコアでシード候補をランク付けし、編集性を維持しながら、バックグラウンド一貫性に基づいて、不適切なサンプルを早期にフィルタリングする。
スタンドアロンのシード選択以外にも、ELECTは命令誘導編集パイプラインに統合され、ジョイントシードとプロンプトセレクションのためのMultimodal Large-Language Models (MLLMs)に拡張され、シード選択だけでは不十分な結果が改善される。
実験によると、ELECTは計算コスト(平均で41%、最大で61%)を削減し、バックグラウンドの一貫性と命令の順守を改善し、これまで失敗したケースで約40%の成功率を達成した。
関連論文リスト
- Toward Early Quality Assessment of Text-to-Image Diffusion Models [23.306273801765297]
最近のテキスト・ツー・イメージ(T2I)拡散モデルとフローマッチングモデルは、自然言語のプロンプトから非常にリアルな画像を生成することができる。
Probe-Selectは、生成プロセス内の画像品質の効率的な評価を可能にするプラグインモジュールである。
論文 参考訳(メタデータ) (2026-03-03T10:25:46Z) - Image Diffusion Preview with Consistency Solver [86.95276270716477]
ユーザ評価のための予備出力を生成するために,高速かつ低ステップサンプリングを用いた新しいパラダイムであるDiffusion Previewを導入する。
既存のアクセラレーション手法では、トレーニング不要の解決器や訓練後の蒸留が高品質なプレビューを提供するのに苦労している。
強化学習による軽量で訓練可能な高次解法である一般線形多段法から導出した一貫性器を提案する。
論文 参考訳(メタデータ) (2025-12-15T17:47:49Z) - TTSnap: Test-Time Scaling of Diffusion Models via Noise-Aware Pruning [53.52543819839442]
テキスト・画像拡散モデルのテスト時間スケーリングに対する顕著なアプローチは、複数のノイズシードの探索として問題を定式化する。
ノイズ対応プルーニング(TTSnap)を用いたテスト時間スケーリングを提案する。
論文 参考訳(メタデータ) (2025-11-27T09:14:26Z) - Noise Projection: Closing the Prompt-Agnostic Gap Behind Text-to-Image Misalignment in Diffusion Models [9.683618735282414]
テキスト・ツー・イメージ生成において、異なる初期ノイズは、事前訓練された安定拡散(SD)モデルで異なる雑音を誘導する。
このパターンは多様な画像を出力できるが、いくつかのパターンはプロンプトとうまく一致しないかもしれない。
そこで本研究では,初期雑音に対してテキスト条件の修正を施したノイズプロジェクタを提案する。
論文 参考訳(メタデータ) (2025-10-16T10:14:34Z) - Seed Selection for Human-Oriented Image Reconstruction via Guided Diffusion [0.0]
最近の拡散に基づくアプローチでは、余分な情報のないマシン指向画像から人間指向画像を生成する。
単一のランダムなシードを使用し、最適化された画像の品質につながる可能性がある。
画像品質を向上させるために,複数の候補から最適な種を識別する種選択法を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:29:53Z) - PostEdit: Posterior Sampling for Efficient Zero-Shot Image Editing [63.38854614997581]
拡散サンプリングプロセスを制御するために後続のスキームを組み込んだPostEditを導入する。
提案したPostEditは、未編集領域を正確に保存しながら、最先端の編集性能を実現する。
インバージョンもトレーニングも不要で、約1.5秒と18GBのGPUメモリを必要とするため、高品質な結果が得られる。
論文 参考訳(メタデータ) (2024-10-07T09:04:50Z) - Rejection Sampling IMLE: Designing Priors for Better Few-Shot Image
Synthesis [7.234618871984921]
新たな研究分野は、限られたトレーニングデータで深層生成モデルを学ぶことを目的としている。
トレーニングに使用する事前分布を変更する新しいアプローチであるRS-IMLEを提案する。
これにより、既存のGANやIMLEベースの手法に比べて画質が大幅に向上する。
論文 参考訳(メタデータ) (2024-09-26T00:19:42Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - TiNO-Edit: Timestep and Noise Optimization for Robust Diffusion-Based Image Editing [12.504661526518234]
我々は、編集中のノイズパターンと拡散時間の最適化に焦点をあてたSDベースのTiNO-Editを提案する。
SDの潜在領域で動作する新しい損失関数のセットを提案し、最適化を大幅に高速化する。
本手法は,Textual InversionやDreamBoothなど,SDのバリエーションに容易に適用することができる。
論文 参考訳(メタデータ) (2024-04-17T07:08:38Z) - Diffusion Posterior Proximal Sampling for Image Restoration [27.35952624032734]
我々は拡散に基づく画像復元のための洗練されたパラダイムを提案する。
具体的には,各生成段階における測定値と一致したサンプルを選択する。
選択に使用する候補サンプルの数は、タイムステップの信号対雑音比に基づいて適応的に決定される。
論文 参考訳(メタデータ) (2024-02-25T04:24:28Z) - The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling [78.6155095947769]
Skip-Tuningは、スキップ接続上でシンプルだが驚くほど効果的にトレーニング不要なチューニング方法である。
ImageNet 64 では 19 NFE (1.75) で事前訓練された EDM に対して100% FID の改善が可能である。
Skip-Tuningは画素空間におけるスコアマッチング損失を増加させる一方、特徴空間における損失は減少する。
論文 参考訳(メタデータ) (2024-02-23T08:05:23Z) - Test-Time Degradation Adaptation for Open-Set Image Restoration [35.94643881619977]
オープンセット画像復元のためのテスト時間劣化適応フレームワークを提案する。
本手法はタスク固有の手法よりも性能が優れている。
論文 参考訳(メタデータ) (2023-12-02T13:35:48Z) - Diverse Data Augmentation with Diffusions for Effective Test-time Prompt
Tuning [73.75282761503581]
DiffTPTを提案する。DiffTPTは,事前学習した拡散モデルを用いて,多種多様な情報データを生成する。
DiffTPTがゼロショット精度を平均5.13%向上することを示す。
論文 参考訳(メタデータ) (2023-08-11T09:36:31Z) - Filter-Guided Diffusion for Controllable Image Generation [9.576951996461363]
Filter-Guided Diffusionは、ゼロショット画像から画像への変換と編集のための拡散に基づく生成モデルである。
FGDは、ガイダンスの強度と周波数のより細かい制御をサポートし、非決定論的サンプリング器を使ってより多種多様なものを作成することができる。
我々は、翻訳作業におけるFGDの性能を評価するために、広範囲にわたる定量的、質的な実験を行い、マスクを用いた場合の局所的な編集の可能性を示した。
論文 参考訳(メタデータ) (2023-06-29T17:44:18Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。