Fugu-MT 論文翻訳(概要): Paint by Example: Exemplar-based Image Editing with Diffusion Models

論文の概要: Paint by Example: Exemplar-based Image Editing with Diffusion Models

arxiv url: http://arxiv.org/abs/2211.13227v1
Date: Wed, 23 Nov 2022 18:59:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-24 15:42:23.073482
Title: Paint by Example: Exemplar-based Image Editing with Diffusion Models
Title（参考訳）: 例によるペイント:拡散モデルを用いたexemplarベースの画像編集
Authors: Binxin Yang, Shuyang Gu, Bo Zhang, Ting Zhang, Xuejin Chen, Xiaoyan Sun, Dong Chen and Fang Wen
Abstract要約: 本稿では,より精密な制御のための画像編集について検討する。我々は、この目標を達成するために、自己指導型トレーニングを活用して、ソースイメージとインスペクタをアンタングルし、再編成する。提案手法は印象的な性能を実現し,高忠実度で画像の編集を制御できることを実証する。
参考スコア（独自算出の注目度）: 35.84464684227222
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language-guided image editing has achieved great success recently. In this paper, for the first time, we investigate exemplar-guided image editing for more precise control. We achieve this goal by leveraging self-supervised training to disentangle and re-organize the source image and the exemplar. However, the naive approach will cause obvious fusing artifacts. We carefully analyze it and propose an information bottleneck and strong augmentations to avoid the trivial solution of directly copying and pasting the exemplar image. Meanwhile, to ensure the controllability of the editing process, we design an arbitrary shape mask for the exemplar image and leverage the classifier-free guidance to increase the similarity to the exemplar image. The whole framework involves a single forward of the diffusion model without any iterative optimization. We demonstrate that our method achieves an impressive performance and enables controllable editing on in-the-wild images with high fidelity.
Abstract（参考訳）: 言語誘導画像編集は近年大きな成功を収めている。本稿では,より正確な制御のために,例示ガイド画像編集について初めて検討する。我々は、この目標を達成するために、自己指導型トレーニングを活用して、ソースイメージとインスペクタを再編成する。しかし、ナイーブなアプローチは明らかな融合アーティファクトを引き起こす。画像を直接コピー&ペーストする自明な解決策を避けるため、慎重に分析し、情報ボトルネックと強力な拡張を提案する。一方、編集プロセスの制御性を確保するため、画像の任意の形状マスクをデザインし、分類器フリーのガイダンスを利用して画像の類似度を高める。フレームワーク全体は、反復的な最適化なしに拡散モデルの単一の前方を含む。提案手法は印象的な性能を実現し,高忠実度で画像の編集を制御できることを実証する。

関連論文リスト

Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models [1.9389881806157316]
本研究では,一貫性モデルを用いた画像のインバージョンを改善する新しいフレームワークを提案する。本手法では,再設計精度を大幅に向上するサイクル一貫性最適化手法を提案する。さまざまな画像編集タスクやデータセットに対して,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-06-23T20:34:43Z)
Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文参考訳（メタデータ） (2025-03-31T09:46:56Z)
PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。提案手法は, 利用者の77～90%に好まれる。
論文参考訳（メタデータ） (2025-02-06T13:08:43Z)
Edicho: Consistent Image Editing in the Wild [90.42395533938915]
エディコは拡散モデルに基づく訓練なしの解を踏む。これは、明示的な画像対応を使って直接編集する基本的な設計原理を特徴としている。
論文参考訳（メタデータ） (2024-12-30T16:56:44Z)
Diffusion-Based Conditional Image Editing through Optimized Inference with Guidance [46.922018440110826]
本稿では,事前学習されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像翻訳のためのトレーニング不要なアプローチを提案する。本手法は,事前学習した安定拡散モデルと組み合わせることで,様々なタスクにおける画像と画像の翻訳性能を向上する。
論文参考訳（メタデータ） (2024-12-20T11:15:31Z)
Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文参考訳（メタデータ） (2024-11-29T12:11:28Z)
Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing [42.73883397041092]
本稿では,誘導機構による拡散サンプリングプロセスの修正に基づく新しい手法を提案する。本研究では,入力画像の全体構造を保存するための自己誘導手法について検討する。本稿では,人間の評価と定量的分析を通じて,提案手法が望ましい編集を可能にすることを示す。
論文参考訳（メタデータ） (2024-09-02T15:21:46Z)
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文参考訳（メタデータ） (2024-08-01T17:27:28Z)
DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文参考訳（メタデータ） (2024-06-03T17:59:53Z)
The Curious Case of End Token: A Zero-Shot Disentangled Image Editing using CLIP [4.710921988115686]
ここでは,CLIPはゼロショット方式でアンタングル編集を行うことができることを示す。この知見は、画像やビデオ編集など、様々なタスクにこの手法を適用する機会を開く可能性がある。
論文参考訳（メタデータ） (2024-06-01T14:46:57Z)
Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文参考訳（メタデータ） (2024-03-14T15:07:36Z)
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2023-06-26T06:04:09Z)
ReGeneration Learning of Diffusion Models with Rich Prompts for Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文参考訳（メタデータ） (2023-05-08T12:08:12Z)
Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。提案手法は再構築段階と編集段階から構成される。 ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文参考訳（メタデータ） (2023-05-08T03:34:33Z)
Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文参考訳（メタデータ） (2023-02-06T18:59:51Z)
End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文参考訳（メタデータ） (2022-05-03T17:59:30Z)
Look here! A parametric learning based approach to redirect visual attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文参考訳（メタデータ） (2020-08-12T16:08:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。