Fugu-MT 論文翻訳(概要): Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image Guidance

論文の概要: Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image Guidance

arxiv url: http://arxiv.org/abs/2401.02126v1
Date: Thu, 4 Jan 2024 08:21:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-05 15:46:20.424919
Title: Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image Guidance
Title（参考訳）: テキストと画像による統一拡散型剛体と非剛体編集
Authors: Jiacheng Wang, Ping Liu, Wei Xu
Abstract要約: 本稿では,厳密な編集と非厳密な編集の両方を実行できる多用途画像編集フレームワークを提案する。我々は、多種多様な編集シナリオを扱うために、デュアルパスインジェクション方式を利用する。外観と構造情報の融合のための統合自己認識機構を導入する。
参考スコア（独自算出の注目度）: 15.130419159003816
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing text-to-image editing methods tend to excel either in rigid or non-rigid editing but encounter challenges when combining both, resulting in misaligned outputs with the provided text prompts. In addition, integrating reference images for control remains challenging. To address these issues, we present a versatile image editing framework capable of executing both rigid and non-rigid edits, guided by either textual prompts or reference images. We leverage a dual-path injection scheme to handle diverse editing scenarios and introduce an integrated self-attention mechanism for fusion of appearance and structural information. To mitigate potential visual artifacts, we further employ latent fusion techniques to adjust intermediate latents. Compared to previous work, our approach represents a significant advance in achieving precise and versatile image editing. Comprehensive experiments validate the efficacy of our method, showcasing competitive or superior results in text-based editing and appearance transfer tasks, encompassing both rigid and non-rigid settings.
Abstract（参考訳）: 既存のテキストから画像への編集方法は、厳格な編集でも非厳格な編集でも優れているが、両方を組み合わせると困難に直面するため、出力とテキストプロンプトが不一致になる。さらに、制御のための参照イメージの統合は依然として困難である。そこで本研究では,テキストプロンプトや参照画像に導かれ,剛体編集と非剛体編集の両方を実行できる多彩な画像編集フレームワークを提案する。多様な編集シナリオに対処するためにデュアルパスインジェクションスキームを活用し,外観と構造情報の融合のための統合セルフアテンション機構を導入する。潜在的な視覚的アーティファクトを緩和するために、中間潜伏量を調整するために潜伏融合技術を用いる。これまでの研究と比較すると,このアプローチは,精巧で汎用的な画像編集を実現する上で大きな進歩を示している。提案手法の有効性を検証し,テキストベースの編集および外観の転送タスクにおいて,剛体設定と非剛体設定の両方を包含する競合的あるいは優れた結果を示す。

関連論文リスト

Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文参考訳（メタデータ） (2025-05-25T22:40:59Z)
DCEdit: Dual-Level Controlled Image Editing via Precisely Localized Semantics [71.78350994830885]
拡散モデルを用いたテキスト誘導画像編集における新しい手法を提案する。本手法は,視覚的・テキスト的自己注意を用いて横断的意識マップを向上し,編集性能を向上させるための地域的手がかりとして機能する。提案手法を他のDiTベースのアプローチと完全に比較するため,高解像度画像,長い記述テキスト,実世界の画像,新しいテキスト編集タスクを特徴とするRW-800ベンチマークを構築した。
論文参考訳（メタデータ） (2025-03-21T02:14:03Z)
UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。 CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。 CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文参考訳（メタデータ） (2024-12-19T18:59:58Z)
Prompt Augmentation for Self-supervised Text-guided Image Manipulation [34.01939157351624]
本稿では,複数のターゲットプロンプトに単一入力プロンプトを増幅し,テキストコンテキストを強化し,局所的な画像編集を可能にするプロンプト拡張手法を提案する。本稿では,編集領域を分割し,保存領域を近くまで描画することで,効率的な画像編集を行うためのコントラストロスを提案する。拡散モデルに新たな損失が組み込まれ、公開データセット上の改善された、あるいは競合的な画像編集結果と、最先端のアプローチによる生成画像が示される。
論文参考訳（メタデータ） (2024-12-17T16:54:05Z)
Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。 ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文参考訳（メタデータ） (2024-08-23T22:16:34Z)
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。 T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文参考訳（メタデータ） (2024-06-20T17:58:52Z)
E4C: Enhance Editability for Text-Based Image Editing by Harnessing Efficient CLIP Guidance [13.535394339438428]
拡散ベースの画像編集は、ソースイメージコンテンツを保存し、新しいコンテンツを生成したり、修正を加えたりする複合プロセスである。テキストベースのtextbf 編集のための textbfCLIP 誘導によるゼロショット画像編集手法である textbfEnhance textbfEditability を提案する。
論文参考訳（メタデータ） (2024-03-15T09:26:48Z)
DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文参考訳（メタデータ） (2024-02-04T18:50:29Z)
Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文参考訳（メタデータ） (2023-11-28T15:31:11Z)
LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文参考訳（メタデータ） (2023-05-30T01:26:41Z)
StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文参考訳（メタデータ） (2023-03-28T00:16:45Z)
Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文参考訳（メタデータ） (2023-02-06T18:59:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。