論文の概要: EditInfinity: Image Editing with Binary-Quantized Generative Models
- arxiv url: http://arxiv.org/abs/2510.20217v3
- Date: Fri, 07 Nov 2025 12:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 14:53:49.488673
- Title: EditInfinity: Image Editing with Binary-Quantized Generative Models
- Title(参考訳): EditInfinity:バイナリ量子生成モデルによる画像編集
- Authors: Jiahuan Wang, Yuxin Chen, Jun Yu, Guangming Lu, Wenjie Pei,
- Abstract要約: 画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
- 参考スコア(独自算出の注目度): 64.05135380710749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting pretrained diffusion-based generative models for text-driven image editing with negligible tuning overhead has demonstrated remarkable potential. A classical adaptation paradigm, as followed by these methods, first infers the generative trajectory inversely for a given source image by image inversion, then performs image editing along the inferred trajectory guided by the target text prompts. However, the performance of image editing is heavily limited by the approximation errors introduced during image inversion by diffusion models, which arise from the absence of exact supervision in the intermediate generative steps. To circumvent this issue, we investigate the parameter-efficient adaptation of binary-quantized generative models for image editing, and leverage their inherent characteristic that the exact intermediate quantized representations of a source image are attainable, enabling more effective supervision for precise image inversion. Specifically, we propose EditInfinity, which adapts \emph{Infinity}, a binary-quantized generative model, for image editing. We propose an efficient yet effective image inversion mechanism that integrates text prompting rectification and image style preservation, enabling precise image inversion. Furthermore, we devise a holistic smoothing strategy which allows our EditInfinity to perform image editing with high fidelity to source images and precise semantic alignment to the text prompts. Extensive experiments on the PIE-Bench benchmark across `add', `change', and `delete' editing operations, demonstrate the superior performance of our model compared to state-of-the-art diffusion-based baselines. Code available at: https://github.com/yx-chen-ust/EditInfinity.
- Abstract(参考訳): テキスト駆動画像編集のための事前学習拡散に基づく生成モデルに、無視可能なチューニングオーバーヘッドで適応させることは、顕著な可能性を示している。
古典的適応パラダイムは、これらの手法に従って、まず、画像インバージョンにより、所定のソース画像に対して生成軌跡を逆向きに推論し、次に、対象のテキストプロンプトによって導かれる推定軌跡に沿って画像編集を行う。
しかし、画像編集性能は、中間生成段階における厳密な監督の欠如から生じる拡散モデルによる画像インバージョン時に生じる近似誤差によって著しく制限される。
この問題を回避するため、画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討し、その特性を利用して、画像の正確な中間量子化表現が達成可能であることを確認し、精度の高い画像インバージョンのためのより効率的な監視を可能にする。
具体的には、画像編集のためのバイナリ量子化生成モデルである \emph{Infinity} を適応させる EditInfinity を提案する。
本稿では, 精度の高い画像インバージョンを実現するために, テキストの修正と画像スタイルの保存を促進させる, 効率的かつ効果的な画像インバージョン機構を提案する。
さらに、ソース画像への忠実度の高い画像編集とテキストプロンプトへの正確なセマンティックアライメントを実現するための全体論的スムージング戦略を考案した。
また,「add」,「change」,「delete」の編集操作に対するPIE-Benchベンチマークの大規模な実験により,現状の拡散ベースラインと比較して,モデルの性能が優れていることを示した。
コードは、https://github.com/yx-chen-ust/EditInfinity.comで公開されている。
関連論文リスト
- Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。
本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。
我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:46:56Z) - Tight Inversion: Image-Conditioned Inversion for Real Image Editing [47.445919355293896]
本稿では,入力画像自体の最も可能な条件を利用する変換手法であるTight Inversionを紹介する。
この厳密な条件は、モデルの出力の分布を狭め、再構築性と編集性の両方を高める。
論文 参考訳(メタデータ) (2025-02-27T18:51:16Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。
拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。
本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-03-14T15:07:36Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Null-text Inversion for Editing Real Images using Guided Diffusion
Models [44.27570654402436]
精度の高い逆変換手法を導入し、直感的なテキストベースの画像修正を容易にする。
我々のNull-textインバージョンは、公開されている安定拡散モデルに基づいて、様々な画像に対して広範囲に評価し、迅速な編集を行う。
論文 参考訳(メタデータ) (2022-11-17T18:58:14Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。