Fugu-MT 論文翻訳(概要): FunEditor: Achieving Complex Image Edits via Function Aggregation with Diffusion Models

論文の概要: FunEditor: Achieving Complex Image Edits via Function Aggregation with Diffusion Models

arxiv url: http://arxiv.org/abs/2408.08495v2
Date: Tue, 17 Dec 2024 16:21:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 17:09:38.181903
Title: FunEditor: Achieving Complex Image Edits via Function Aggregation with Diffusion Models
Title（参考訳）: FunEditor: 拡散モデルによる関数集約による複雑な画像編集を実現する
Authors: Mohammadreza Samadi, Fred X. Han, Mohammad Salameh, Hao Wu, Fengyu Sun, Chunhua Zhou, Di Niu,
Abstract要約: 拡散モデルは生成タスクにおいて優れた性能を示しており、画像編集の理想的な候補となっている。本稿では,原子編集関数を学習し,より単純な関数を集約して複雑な編集を行うための,効率的な拡散モデルFunEditorを紹介する。推論の4ステップだけで、FunEditorは既存の一般的なメソッドよりも5～24倍の推論スピードアップを達成する。
参考スコア（独自算出の注目度）: 15.509233098264513
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models have demonstrated outstanding performance in generative tasks, making them ideal candidates for image editing. Recent studies highlight their ability to apply desired edits effectively by following textual instructions, yet with two key challenges remaining. First, these models struggle to apply multiple edits simultaneously, resulting in computational inefficiencies due to their reliance on sequential processing. Second, relying on textual prompts to determine the editing region can lead to unintended alterations to the image. We introduce FunEditor, an efficient diffusion model designed to learn atomic editing functions and perform complex edits by aggregating simpler functions. This approach enables complex editing tasks, such as object movement, by aggregating multiple functions and applying them simultaneously to specific areas. Our experiments demonstrate that FunEditor significantly outperforms recent inference-time optimization methods and fine-tuned models, either quantitatively across various metrics or through visual comparisons or both, on complex tasks like object movement and object pasting. In the meantime, with only 4 steps of inference, FunEditor achieves 5-24x inference speedups over existing popular methods. The code is available at: mhmdsmdi.github.io/funeditor/.
Abstract（参考訳）: 拡散モデルは生成タスクにおいて優れた性能を示しており、画像編集の理想的な候補となっている。近年の研究では、テキストによる指示に従うことによって、望ましい編集を効果的に適用する能力を強調しているが、2つの重要な課題が残されている。第一に、これらのモデルは複数の編集を同時に行うのに苦労し、逐次処理に依存するため、計算の効率が低下する。第2に、編集領域を決定するためのテキストプロンプトに依存すると、意図しない画像の変更につながる可能性がある。本稿では,原子編集関数を学習し,より単純な関数を集約して複雑な編集を行うための,効率的な拡散モデルFunEditorを紹介する。このアプローチは、複数の関数を集約し、それらを特定の領域に同時に適用することにより、オブジェクトの動きなどの複雑な編集タスクを可能にする。実験により、FunEditorは、オブジェクトの動きやオブジェクトのペーストといった複雑なタスクにおいて、様々なメトリクスを定量的に、あるいは視覚的比較を通して、最近の推論時間最適化手法や微調整モデルよりも大幅に優れていることが示された。一方、FunEditorは推論のわずか4ステップで、既存の一般的なメソッドよりも5～24倍の高速化を実現している。 mhmdsmdi.github.io/funeditor/

関連論文リスト

FlowDC: Flow-Based Decoupling-Decay for Complex Image Editing [52.54102743380658]
本稿では,複雑な編集を複数のサブ編集エフェクトに分離し,編集プロセス中に並列に重畳するFlowDCを提案する。 FlowDCは既存の方法に比べて優れた結果を示した。
論文参考訳（メタデータ） (2025-12-12T09:08:39Z)
MIRA: Multimodal Iterative Reasoning Agent for Image Editing [48.41212094929379]
本稿では,MIRA(Multimodal Iterative Reasoning Agent)を提案する。単一のプロンプトや静的プランを発行する代わりに、MIRAは、視覚的なフィードバックを使用して、その決定を行うために、段階的にアトミックな編集命令を予測する。われわれの150Kマルチモーダルツール使用データセットであるMIRA-Editingと2段階のSFT + GRPOトレーニングパイプラインを組み合わせることで、MIRAは複雑な編集命令に対して推論と編集を行うことができる。
論文参考訳（メタデータ） (2025-11-26T06:13:32Z)
FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。 FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文参考訳（メタデータ） (2025-03-25T16:59:42Z)
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。 3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文参考訳（メタデータ） (2024-11-24T07:02:56Z)
ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文参考訳（メタデータ） (2024-11-06T15:19:24Z)
Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。 ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文参考訳（メタデータ） (2024-08-23T22:16:34Z)
An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文参考訳（メタデータ） (2024-03-07T20:06:29Z)
DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文参考訳（メタデータ） (2024-02-04T18:50:29Z)
Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文参考訳（メタデータ） (2023-11-28T15:31:11Z)
Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。 Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文参考訳（メタデータ） (2023-11-16T18:55:58Z)
PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor [135.17302411419834]
PAIR Diffusionは、画像内の各オブジェクトの構造と外観を制御する拡散モデルを可能にする汎用フレームワークである。画像中の各オブジェクトのプロパティを制御できることが、包括的な編集機能に繋がることを示す。我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
論文参考訳（メタデータ） (2023-03-30T17:13:56Z)
StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文参考訳（メタデータ） (2023-03-28T00:16:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。