論文の概要: Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image
Guidance
- arxiv url: http://arxiv.org/abs/2401.02126v1
- Date: Thu, 4 Jan 2024 08:21:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 15:46:20.424919
- Title: Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image
Guidance
- Title(参考訳): テキストと画像による統一拡散型剛体と非剛体編集
- Authors: Jiacheng Wang, Ping Liu, Wei Xu
- Abstract要約: 本稿では,厳密な編集と非厳密な編集の両方を実行できる多用途画像編集フレームワークを提案する。
我々は、多種多様な編集シナリオを扱うために、デュアルパスインジェクション方式を利用する。
外観と構造情報の融合のための統合自己認識機構を導入する。
- 参考スコア(独自算出の注目度): 15.130419159003816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing text-to-image editing methods tend to excel either in rigid or
non-rigid editing but encounter challenges when combining both, resulting in
misaligned outputs with the provided text prompts. In addition, integrating
reference images for control remains challenging. To address these issues, we
present a versatile image editing framework capable of executing both rigid and
non-rigid edits, guided by either textual prompts or reference images. We
leverage a dual-path injection scheme to handle diverse editing scenarios and
introduce an integrated self-attention mechanism for fusion of appearance and
structural information. To mitigate potential visual artifacts, we further
employ latent fusion techniques to adjust intermediate latents. Compared to
previous work, our approach represents a significant advance in achieving
precise and versatile image editing. Comprehensive experiments validate the
efficacy of our method, showcasing competitive or superior results in
text-based editing and appearance transfer tasks, encompassing both rigid and
non-rigid settings.
- Abstract(参考訳): 既存のテキストから画像への編集方法は、厳格な編集でも非厳格な編集でも優れているが、両方を組み合わせると困難に直面するため、出力とテキストプロンプトが不一致になる。
さらに、制御のための参照イメージの統合は依然として困難である。
そこで本研究では,テキストプロンプトや参照画像に導かれ,剛体編集と非剛体編集の両方を実行できる多彩な画像編集フレームワークを提案する。
多様な編集シナリオに対処するためにデュアルパスインジェクションスキームを活用し,外観と構造情報の融合のための統合セルフアテンション機構を導入する。
潜在的な視覚的アーティファクトを緩和するために、中間潜伏量を調整するために潜伏融合技術を用いる。
これまでの研究と比較すると,このアプローチは,精巧で汎用的な画像編集を実現する上で大きな進歩を示している。
提案手法の有効性を検証し,テキストベースの編集および外観の転送タスクにおいて,剛体設定と非剛体設定の両方を包含する競合的あるいは優れた結果を示す。
関連論文リスト
- UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。
CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。
CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-12-19T18:59:58Z) - Prompt Augmentation for Self-supervised Text-guided Image Manipulation [34.01939157351624]
本稿では,複数のターゲットプロンプトに単一入力プロンプトを増幅し,テキストコンテキストを強化し,局所的な画像編集を可能にするプロンプト拡張手法を提案する。
本稿では,編集領域を分割し,保存領域を近くまで描画することで,効率的な画像編集を行うためのコントラストロスを提案する。
拡散モデルに新たな損失が組み込まれ、公開データセット上の改善された、あるいは競合的な画像編集結果と、最先端のアプローチによる生成画像が示される。
論文 参考訳(メタデータ) (2024-12-17T16:54:05Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - E4C: Enhance Editability for Text-Based Image Editing by Harnessing Efficient CLIP Guidance [13.535394339438428]
拡散ベースの画像編集は、ソースイメージコンテンツを保存し、新しいコンテンツを生成したり、修正を加えたりする複合プロセスである。
テキストベースのtextbf 編集のための textbfCLIP 誘導によるゼロショット画像編集手法である textbfEnhance textbfEditability を提案する。
論文 参考訳(メタデータ) (2024-03-15T09:26:48Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。