Fugu-MT 論文翻訳(概要): ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models

論文の概要: ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models

arxiv url: http://arxiv.org/abs/2411.03982v1
Date: Wed, 06 Nov 2024 15:19:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.017139
Title: ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models
Title（参考訳）: ReEdit: 拡散モデルを用いたマルチモーダル例に基づく画像編集
Authors: Ashutosh Srivastava, Tarun Ram Menta, Abhinav Java, Avadhoot Jadhav, Silky Singh, Surgan Jandial, Balaji Krishnamurthy,
Abstract要約: 最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
参考スコア（独自算出の注目度）: 11.830273909934688
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern Text-to-Image (T2I) Diffusion models have revolutionized image editing by enabling the generation of high-quality photorealistic images. While the de facto method for performing edits with T2I models is through text instructions, this approach non-trivial due to the complex many-to-many mapping between natural language and images. In this work, we address exemplar-based image editing -- the task of transferring an edit from an exemplar pair to a content image(s). We propose ReEdit, a modular and efficient end-to-end framework that captures edits in both text and image modalities while ensuring the fidelity of the edited image. We validate the effectiveness of ReEdit through extensive comparisons with state-of-the-art baselines and sensitivity analyses of key design choices. Our results demonstrate that ReEdit consistently outperforms contemporary approaches both qualitatively and quantitatively. Additionally, ReEdit boasts high practical applicability, as it does not require any task-specific optimization and is four times faster than the next best baseline.
Abstract（参考訳）: 最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質なフォトリアリスティック画像の生成を可能にして、画像編集に革命をもたらした。 T2Iモデルで編集を行うデファクト法はテキスト命令によるものであるが、これは自然言語と画像の複雑な多対多マッピングのため、非自明なアプローチである。本研究は,例のペアからコンテンツイメージへ編集を転送する作業である,例のイメージ編集に対処する。本稿では,画像の完全性を確保しつつ,テキストと画像の両モードで編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。本稿では,ReEditの有効性を,最先端のベースラインと比較し,重要な設計選択の感度分析により検証する。以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。さらにReEditは、タスク固有の最適化を一切必要とせず、次のベストベースラインの4倍高速であるため、実用的な適用性が高い。

関連論文リスト

EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文参考訳（メタデータ） (2025-10-23T05:06:24Z)
Towards Efficient Exemplar Based Image Editing with Multimodal VLMs [11.830273909934688]
本研究では,テキストから画像への拡散モデルとマルチモーダルVLMを利用して,既存のペアからコンテンツイメージへ編集を転送する作業に取り組む。エンドツーエンドのパイプラインは最適化不要ですが、実験では、複数のタイプの編集においてベースラインを4倍高速で上回っています。
論文参考訳（メタデータ） (2025-06-25T06:20:36Z)
Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models [1.9389881806157316]
本研究では,一貫性モデルを用いた画像のインバージョンを改善する新しいフレームワークを提案する。本手法では,再設計精度を大幅に向上するサイクル一貫性最適化手法を提案する。さまざまな画像編集タスクやデータセットに対して,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-06-23T20:34:43Z)
Pathways on the Image Manifold: Image Editing via Video Generation [11.891831122571995]
我々は、事前訓練されたビデオモデルを用いて、画像編集を時間的プロセスとして再構成し、元の画像から所望の編集へのスムーズな遷移を生成する。提案手法は,テキストベースの画像編集における最先端の成果を達成し,編集精度と画像保存の両面で有意な改善を示した。
論文参考訳（メタデータ） (2024-11-25T16:41:45Z)
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。 3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文参考訳（メタデータ） (2024-11-24T07:02:56Z)
SeedEdit: Align Image Re-Generation to Image Editing [23.461716630027436]
本稿では,任意のテキストプロンプトで任意の画像を修正可能な拡散モデルであるSeedEditを紹介する。このような2つの方向の間に多様なペアを生成する弱いジェネレータ(text-to-image model)から始める。 SeedEditは、以前の画像編集方法よりも多種多様な安定した編集機能を実現することができる。
論文参考訳（メタデータ） (2024-11-11T03:06:26Z)
Achieving Complex Image Edits via Function Aggregation with Diffusion Models [15.509233098264513]
拡散モデルは、生成タスクにおいて強力な性能を示しており、画像編集の理想的な候補となっている。本稿では,原子編集関数を学習し,より単純な関数を集約して複雑な編集を行うための,効率的な拡散モデルFunEditorを紹介する。 FunEditorは、オブジェクトムーブメントのような複雑なタスクの既存のメソッドよりも5倍から24倍高速な推論を行う。
論文参考訳（メタデータ） (2024-08-16T02:33:55Z)
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。 T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文参考訳（メタデータ） (2024-06-20T17:58:52Z)
DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文参考訳（メタデータ） (2024-02-04T18:50:29Z)
Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文参考訳（メタデータ） (2023-11-28T15:31:11Z)
LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文参考訳（メタデータ） (2023-07-02T09:11:09Z)
ReGeneration Learning of Diffusion Models with Rich Prompts for Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文参考訳（メタデータ） (2023-05-08T12:08:12Z)
Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。提案手法は再構築段階と編集段階から構成される。 ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文参考訳（メタデータ） (2023-05-08T03:34:33Z)
StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文参考訳（メタデータ） (2023-03-28T00:16:45Z)
Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文参考訳（メタデータ） (2022-12-13T21:25:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。