Fugu-MT 論文翻訳(概要): DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing

論文の概要: DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing

arxiv url: http://arxiv.org/abs/2306.14435v5
Date: Mon, 11 Dec 2023 04:59:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 20:06:29.932269
Title: DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing
Title（参考訳）: DragDiffusion:インタラクティブなポイントベース画像編集のための拡散モデル
Authors: Yujun Shi, Chuhui Xue, Jun Hao Liew, Jiachun Pan, Hanshu Yan, Wenqing Zhang, Vincent Y. F. Tan, Song Bai
Abstract要約: DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
参考スコア（独自算出の注目度）: 98.30393804479152
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Accurate and controllable image editing is a challenging task that has attracted significant attention recently. Notably, DragGAN is an interactive point-based image editing framework that achieves impressive editing results with pixel-level precision. However, due to its reliance on generative adversarial networks (GANs), its generality is limited by the capacity of pretrained GAN models. In this work, we extend this editing framework to diffusion models and propose a novel approach DragDiffusion. By harnessing large-scale pretrained diffusion models, we greatly enhance the applicability of interactive point-based editing on both real and diffusion-generated images. Our approach involves optimizing the diffusion latents to achieve precise spatial control. The supervision signal of this optimization process is from the diffusion model's UNet features, which are known to contain rich semantic and geometric information. Moreover, we introduce two additional techniques, namely LoRA fine-tuning and latent-MasaCtrl, to further preserve the identity of the original image. Lastly, we present a challenging benchmark dataset called DragBench -- the first benchmark to evaluate the performance of interactive point-based image editing methods. Experiments across a wide range of challenging cases (e.g., images with multiple objects, diverse object categories, various styles, etc.) demonstrate the versatility and generality of DragDiffusion. Code: https://github.com/Yujun-Shi/DragDiffusion.
Abstract（参考訳）: 正確かつ制御可能な画像編集は、最近大きな注目を集めている課題である。 dragganはインタラクティブなポイントベースの画像編集フレームワークで、ピクセルレベルの精度で印象的な編集結果を実現する。しかしながら、GAN(Generative Adversarial Network)に依存しているため、その一般化は事前訓練されたGANモデルの能力によって制限される。本研究では,この編集フレームワークを拡散モデルに拡張し,新しいアプローチDragDiffusionを提案する。大規模事前学習された拡散モデルを用いることで,実画像と拡散画像の両方に対するインタラクティブなポイントベース編集の適用性が大幅に向上する。本手法では,空間制御の精度を高めるために拡散潜時を最適化する。この最適化プロセスの監督信号は拡散モデルのUNet特徴からであり、リッチな意味情報と幾何学的情報を含んでいることが知られている。さらに、元の画像のアイデンティティをより保存するために、LoRAファインチューニングと潜在MasaCtrlという2つの追加技術を導入する。最後に,インタラクティブなポイントベース画像編集手法の性能評価を行う最初のベンチマークであるdragbenchという,難易度の高いベンチマークデータセットを提案する。様々な挑戦的なケース(例えば、複数のオブジェクトを持つ画像、多様なオブジェクトカテゴリ、様々なスタイルなど)にわたる実験は、dragdiffusionの汎用性と汎用性を示している。コード: https://github.com/yujun-shi/dragdiffusion。

関連論文リスト

Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文参考訳（メタデータ） (2025-12-08T05:04:54Z)
AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文参考訳（メタデータ） (2025-06-16T09:42:38Z)
IntrinsicEdit: Precise generative image manipulation in intrinsic space [53.404235331886255]
そこで本研究では,固有画像空間で動作する汎用的生成ワークフローを提案する。我々はアイデンティティの保存と内在チャネルの絡み合いの鍵となる課題に対処する。我々は,グローバル照明効果の自動分解による高精度かつ効率的な編集を可能にする。
論文参考訳（メタデータ） (2025-05-13T18:24:15Z)
Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:51Z)
Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。 MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文参考訳（メタデータ） (2024-10-29T03:49:40Z)
AdaptiveDrag: Semantic-Driven Dragging on Diffusion-Based Image Editing [14.543341303789445]
マスクレスのポイントベース画像編集手法であるAdaptiveDragを提案する。入力画像とドラッグプロセスとの包括的接続を確保するため,セマンティック駆動型最適化を開発した。提案手法は,これらの効果的な設計に基づいて,単一入力画像とハンド・ターゲット・ポイント・ペアのみを用いて,優れた生成結果を提供する。
論文参考訳（メタデータ） (2024-10-16T15:59:02Z)
High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。 SDモデルに先立って、頑健な一般化機能とリッチで多目的な画像表現を活用することにより、高忠実で詳細な生成を保ちながら、推論時間を著しく短縮する。 DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文参考訳（メタデータ） (2024-10-14T02:49:23Z)
DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing [28.593023489682654]
DiffMorpherは、拡散モデルを用いて、スムーズで自然な画像のモーフィングを可能にする最初のアプローチである。私たちのキーとなるアイデアは、2つのLoRAをそれぞれ組み合わせることで2つの画像の意味を捉え、LoRAパラメータと潜時ノイズの両方を補間することで、スムーズなセマンティック・トランジションを確保することです。また,連続画像間のスムーズさをさらに高めるため,注意・注入手法と新しいサンプリングスケジュールを提案する。
論文参考訳（メタデータ） (2023-12-12T16:28:08Z)
ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。 ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文参考訳（メタデータ） (2023-11-24T15:20:01Z)
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文参考訳（メタデータ） (2023-07-05T16:43:56Z)
Blended Latent Diffusion [18.043090347648157]
本稿では,汎用画像の局所的なテキスト駆動編集の課題に対して,ユーザが提供するマスクに所望の編集を限定する高速化されたソリューションを提案する。提案手法は,低次元の潜伏空間で操作することで拡散を高速化する,最近のテキストから画像への潜伏拡散モデル (LDM) を利用する。
論文参考訳（メタデータ） (2022-06-06T17:58:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。