Fugu-MT 論文翻訳(概要): FEC: Three Finetuning-free Methods to Enhance Consistency for Real Image Editing

論文の概要: FEC: Three Finetuning-free Methods to Enhance Consistency for Real Image Editing

arxiv url: http://arxiv.org/abs/2309.14934v1
Date: Tue, 26 Sep 2023 13:43:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-27 13:32:55.372228
Title: FEC: Three Finetuning-free Methods to Enhance Consistency for Real Image Editing
Title（参考訳）: FEC:画像編集の一貫性を高める3つのファインタニングフリー手法
Authors: Songyan Chen, Jiancheng Huang
Abstract要約: 本稿では,3つのサンプリング手法からなるFECを提案し,それぞれが異なる編集タイプと設定のために設計されている。 FECは、画像編集タスクにおいて、2つの重要な目標を達成している。いずれのサンプリング手法も拡散モデルの微調整や大規模データセットの時間的訓練は不要である。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-conditional image editing is a very useful task that has recently emerged with immeasurable potential. Most current real image editing methods first need to complete the reconstruction of the image, and then editing is carried out by various methods based on the reconstruction. Most methods use DDIM Inversion for reconstruction, however, DDIM Inversion often fails to guarantee reconstruction performance, i.e., it fails to produce results that preserve the original image content. To address the problem of reconstruction failure, we propose FEC, which consists of three sampling methods, each designed for different editing types and settings. Our three methods of FEC achieve two important goals in image editing task: 1) ensuring successful reconstruction, i.e., sampling to get a generated result that preserves the texture and features of the original real image. 2) these sampling methods can be paired with many editing methods and greatly improve the performance of these editing methods to accomplish various editing tasks. In addition, none of our sampling methods require fine-tuning of the diffusion model or time-consuming training on large-scale datasets. Hence the cost of time as well as the use of computer memory and computation can be significantly reduced.
Abstract（参考訳）: テキスト条件画像編集は、最近目立たない可能性を秘めている非常に有用なタスクである。実際の画像編集手法の多くは、まず画像の再構成を完了し、その後、再構成に基づいて様々な方法で編集を行う。ほとんどの手法では再構成に DDIM Inversion を用いるが、DDIM Inversion は再構成性能の保証に失敗することが多い。再構成の失敗に対処するために,異なる編集タイプと設定のために設計された3つのサンプリング手法からなるFECを提案する。 FECの3つの手法は、画像編集タスクにおいて2つの重要な目標を達成する。 1) 実画像のテクスチャと特徴を保存した生成結果を得るためのサンプリングなど,再現性を確保すること。 2)これらのサンプリング手法は,多くの編集手法と組み合わせることができ,編集手法の性能を大幅に向上させ,様々な編集作業を行うことができる。さらに,我々のサンプリング手法では,拡散モデルの微調整や大規模データセットの時間的トレーニングは不要である。したがって、コンピュータメモリと計算の使用だけでなく、時間のコストも大幅に削減できる。

関連論文リスト

REED-VAE: RE-Encode Decode Training for Iterative Image Editing with Diffusion Models [21.889238871432553]
遅延拡散モデルでは印象的な画像編集結果が得られるが,同じ画像の反復的編集への応用は厳しく制限されている。可変オートエンコーダ(VAE)のためのRE-Encode Decode(REED)トレーニングスキームを提案する。本稿では、REED-VAEが画像の全体的な編集可能性を高め、良好な編集操作を行う可能性を高めることを示す。
論文参考訳（メタデータ） (2025-04-26T18:26:54Z)
Dual-Schedule Inversion: Training- and Tuning-Free Inversion for Real Image Editing [43.082008983889956]
拡散モデルに基づくほとんどのメソッドは、編集の第一段階としてDDIM Inversionを使用する。そこで本研究では,Dual-Schedule Inversionと呼ばれる新しいインバージョンとサンプリング手法を提案する。また、Dual-Schedule Inversionとユーザフレンドリーな画像編集のための異なる編集手法を適応的に組み合わせる分類器を設計する。
論文参考訳（メタデータ） (2024-12-15T11:04:06Z)
INRetouch: Context Aware Implicit Neural Representation for Photography Retouching [54.17599183365242]
本稿では、プロの編集から前後のイメージペアを通して学習する新しいリタッチ転送手法を提案する。我々は,画像の内容とコンテキストに基づいて,適応的に編集を適用することを学習する文脈認識型インプシットニューラル表現を開発した。提案手法は,参照編集から暗黙的な変換を抽出し,それらを新しい画像に適用する。
論文参考訳（メタデータ） (2024-12-05T03:31:48Z)
Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文参考訳（メタデータ） (2024-11-29T12:11:28Z)
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision [32.33777277141083]
我々は,7種類の画像編集タスクをシームレスに処理できる全能なエディタであるomnieditを提案する。 omnieditは7つの異なるスペシャリストモデルの監督を利用して、タスクカバレッジを確保することで訓練される。当社のモデルが野生のどんな画像でも扱えるように、アスペクト比の異なる画像を提供しています。
論文参考訳（メタデータ） (2024-11-11T18:21:43Z)
ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文参考訳（メタデータ） (2024-11-06T15:19:24Z)
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文参考訳（メタデータ） (2024-08-01T17:27:28Z)
Preserving Identity with Variational Score for General-purpose 3D Editing [48.314327790451856]
Pivaは拡散モデルに基づいて画像や3Dモデルを編集する新しい最適化手法である。我々は2Dと3Dの編集の限界を指摘し、細かな損失と過飽和を引き起こす。恒常保存を強制する追加のスコア蒸留項を提案する。
論文参考訳（メタデータ） (2024-06-13T09:32:40Z)
Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文参考訳（メタデータ） (2024-05-27T04:44:36Z)
Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文参考訳（メタデータ） (2024-02-22T18:50:18Z)
Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
論文参考訳（メタデータ） (2024-02-21T18:36:26Z)
Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。 TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文参考訳（メタデータ） (2023-12-22T11:13:22Z)
Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2023-10-18T17:59:02Z)
KV Inversion: KV Embeddings Learning for Text-Conditioned Real Image Action Editing [15.831539388569473]
良好な再構成性能と動作編集が可能なKVインバージョンを提案する。本手法では,安定拡散モデル自体のトレーニングを必要とせず,大規模なデータセットをスキャンして時間を要するトレーニングを行う必要もない。
論文参考訳（メタデータ） (2023-09-28T17:07:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。