論文の概要: RegionDrag: Fast Region-Based Image Editing with Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.18247v1
- Date: Thu, 25 Jul 2024 17:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 13:09:36.645573
- Title: RegionDrag: Fast Region-Based Image Editing with Diffusion Models
- Title(参考訳): RegionDrag: 拡散モデルによる高速領域ベース画像編集
- Authors: Jingyi Lu, Xinghui Li, Kai Han,
- Abstract要約: RegionDragはコピー&ペーストドラッグ方式で、ユーザーは編集命令をハンドルとターゲット領域の形式で表現できる。
RegionDragは解像度512x512の画像を2秒未満で編集する。
- 参考スコア(独自算出の注目度): 14.65208340413507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point-drag-based image editing methods, like DragDiffusion, have attracted significant attention. However, point-drag-based approaches suffer from computational overhead and misinterpretation of user intentions due to the sparsity of point-based editing instructions. In this paper, we propose a region-based copy-and-paste dragging method, RegionDrag, to overcome these limitations. RegionDrag allows users to express their editing instructions in the form of handle and target regions, enabling more precise control and alleviating ambiguity. In addition, region-based operations complete editing in one iteration and are much faster than point-drag-based methods. We also incorporate the attention-swapping technique for enhanced stability during editing. To validate our approach, we extend existing point-drag-based datasets with region-based dragging instructions. Experimental results demonstrate that RegionDrag outperforms existing point-drag-based approaches in terms of speed, accuracy, and alignment with user intentions. Remarkably, RegionDrag completes the edit on an image with a resolution of 512x512 in less than 2 seconds, which is more than 100x faster than DragDiffusion, while achieving better performance. Project page: https://visual-ai.github.io/regiondrag.
- Abstract(参考訳): DragDiffusionのようなポイントドラッグベースの画像編集手法は注目されている。
しかし、ポイントドラッグベースのアプローチは、ポイントベースの編集命令のばらつきにより、計算オーバーヘッドとユーザの意図の誤解釈に悩まされる。
本稿では,これらの制約を克服するために,地域ベースのコピー・アンド・ペーストドラッグ手法であるRereaDragを提案する。
RegionDragは、ユーザがハンドルとターゲットリージョンの形式で編集命令を表現し、より正確なコントロールとあいまいさの緩和を可能にする。
さらに、リージョンベースの操作は1イテレーションで完全な編集を行い、ポイントドラッグベースのメソッドよりもはるかに高速である。
また,アテンションスワッピング技術を用いて編集時の安定性を向上する。
このアプローチを検証するために、既存のポイントドラッグベースのデータセットを拡張して、リージョンベースのドラッグング命令を適用します。
実験結果から、RereaDragは既存のポイントドラッグベースのアプローチよりも、スピード、正確性、ユーザの意図との整合性が優れていることが示された。
注目すべきは、RereaDragが解像度512x512の画像を2秒未満で編集することです。
プロジェクトページ: https://visual-ai.github.io/ Regionaldrag.com
関連論文リスト
- Combing Text-based and Drag-based Editing for Precise and Flexible Image Editing [9.398831289389749]
テキストとドラッグ信号を組み合わせた新しい画像編集手法である textbfCLIPDrag を提案する。
CLIPDragは、既存の単一のドラッグベースのメソッドやテキストベースのメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-10-04T02:46:09Z) - FastDrag: Manipulate Anything in One Step [20.494157877241665]
本稿では,FastDragというワンステップのドラッグベースの画像編集手法を導入し,編集プロセスの高速化を図る。
この革新は1段階の遅延セマンティック最適化を実現し、編集速度を大幅に向上させる。
私たちのFastDragはDragBenchデータセットで検証されています。
論文 参考訳(メタデータ) (2024-05-24T17:59:26Z) - LightningDrag: Lightning Fast and Accurate Drag-based Image Editing Emerging from Videos [101.59710862476041]
1秒で高速なドラッグベースの画像編集を可能にするLightningDragを提案する。
従来の方法とは異なり、条件生成タスクとしてドラッグベースの編集を再定義する。
提案手法は, 精度と整合性の観点から, 従来手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2024-05-22T15:14:00Z) - GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models [31.708968272342315]
ドラッグ編集の安定性と画質を向上させる新しい手法であるGoodDragを紹介する。
GoodDragは、拡散プロセス内のドラッグとdenoising操作を交換するAlDDフレームワークを導入した。
また,精密な操作やアーチファクトの削減のために,開始点の本来の特徴を維持できる情報保存型動作監視操作を提案する。
論文 参考訳(メタデータ) (2024-04-10T17:59:59Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Object-Centric Diffusion for Efficient Video Editing [64.71639719352636]
拡散ベースのビデオ編集は素晴らしい品質に達している。
このようなソリューションは通常、時間的に整合性のあるフレームを生成するために重いメモリと計算コストを発生させる。
品質を維持しつつ、大幅なスピードアップを可能にする修正を提案する。
論文 参考訳(メタデータ) (2024-01-11T08:36:15Z) - ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Region-Aware Diffusion for Zero-shot Text-driven Image Editing [78.58917623854079]
本稿では,エンティティレベルの画像編集のための領域認識拡散モデル(RDM)を提案する。
画像の忠実度と推論速度のバランスをとるために,集中拡散パイプラインを設計する。
その結果、RDMは、視覚的品質、全体的な調和、非編集領域のコンテンツ保存、テキストイメージのセマンティック一貫性において、従来のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-02-23T06:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。