論文の概要: Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image
Guidance
- arxiv url: http://arxiv.org/abs/2401.02126v1
- Date: Thu, 4 Jan 2024 08:21:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 15:46:20.424919
- Title: Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image
Guidance
- Title(参考訳): テキストと画像による統一拡散型剛体と非剛体編集
- Authors: Jiacheng Wang, Ping Liu, Wei Xu
- Abstract要約: 本稿では,厳密な編集と非厳密な編集の両方を実行できる多用途画像編集フレームワークを提案する。
我々は、多種多様な編集シナリオを扱うために、デュアルパスインジェクション方式を利用する。
外観と構造情報の融合のための統合自己認識機構を導入する。
- 参考スコア(独自算出の注目度): 15.130419159003816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing text-to-image editing methods tend to excel either in rigid or
non-rigid editing but encounter challenges when combining both, resulting in
misaligned outputs with the provided text prompts. In addition, integrating
reference images for control remains challenging. To address these issues, we
present a versatile image editing framework capable of executing both rigid and
non-rigid edits, guided by either textual prompts or reference images. We
leverage a dual-path injection scheme to handle diverse editing scenarios and
introduce an integrated self-attention mechanism for fusion of appearance and
structural information. To mitigate potential visual artifacts, we further
employ latent fusion techniques to adjust intermediate latents. Compared to
previous work, our approach represents a significant advance in achieving
precise and versatile image editing. Comprehensive experiments validate the
efficacy of our method, showcasing competitive or superior results in
text-based editing and appearance transfer tasks, encompassing both rigid and
non-rigid settings.
- Abstract(参考訳): 既存のテキストから画像への編集方法は、厳格な編集でも非厳格な編集でも優れているが、両方を組み合わせると困難に直面するため、出力とテキストプロンプトが不一致になる。
さらに、制御のための参照イメージの統合は依然として困難である。
そこで本研究では,テキストプロンプトや参照画像に導かれ,剛体編集と非剛体編集の両方を実行できる多彩な画像編集フレームワークを提案する。
多様な編集シナリオに対処するためにデュアルパスインジェクションスキームを活用し,外観と構造情報の融合のための統合セルフアテンション機構を導入する。
潜在的な視覚的アーティファクトを緩和するために、中間潜伏量を調整するために潜伏融合技術を用いる。
これまでの研究と比較すると,このアプローチは,精巧で汎用的な画像編集を実現する上で大きな進歩を示している。
提案手法の有効性を検証し,テキストベースの編集および外観の転送タスクにおいて,剛体設定と非剛体設定の両方を包含する競合的あるいは優れた結果を示す。
関連論文リスト
- Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - E4C: Enhance Editability for Text-Based Image Editing by Harnessing Efficient CLIP Guidance [13.535394339438428]
拡散ベースの画像編集は、ソースイメージコンテンツを保存し、新しいコンテンツを生成したり、修正を加えたりする複合プロセスである。
テキストベースのtextbf 編集のための textbfCLIP 誘導によるゼロショット画像編集手法である textbfEnhance textbfEditability を提案する。
論文 参考訳(メタデータ) (2024-03-15T09:26:48Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。