論文の概要: DragNeXt: Rethinking Drag-Based Image Editing
- arxiv url: http://arxiv.org/abs/2506.07611v1
- Date: Mon, 09 Jun 2025 10:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.90465
- Title: DragNeXt: Rethinking Drag-Based Image Editing
- Title(参考訳): DragNeXt: ドラッグベースのイメージ編集を再考する
- Authors: Yuan Zhou, Junbao Zhou, Qingshan Xu, Kesen Zhao, Yuxuan Wang, Hao Fei, Richang Hong, Hanwang Zhang,
- Abstract要約: ドラッグベースの画像編集(DBIE)により、ユーザは直接オブジェクトをドラッグすることで画像を操作できる。
Emphtextcolormagentaii)ポイントベースのドラッグは、しばしば非常にあいまいで、ユーザの意図に合わせるのが難しい。
我々は,textcolorSkyBluetextbfDragNeXt という,シンプルなyet効率の編集フレームワークを提案する。
- 参考スコア(独自算出の注目度): 81.9430401732008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drag-Based Image Editing (DBIE), which allows users to manipulate images by directly dragging objects within them, has recently attracted much attention from the community. However, it faces two key challenges: (\emph{\textcolor{magenta}{i}}) point-based drag is often highly ambiguous and difficult to align with users' intentions; (\emph{\textcolor{magenta}{ii}}) current DBIE methods primarily rely on alternating between motion supervision and point tracking, which is not only cumbersome but also fails to produce high-quality results. These limitations motivate us to explore DBIE from a new perspective -- redefining it as deformation, rotation, and translation of user-specified handle regions. Thereby, by requiring users to explicitly specify both drag areas and types, we can effectively address the ambiguity issue. Furthermore, we propose a simple-yet-effective editing framework, dubbed \textcolor{SkyBlue}{\textbf{DragNeXt}}. It unifies DBIE as a Latent Region Optimization (LRO) problem and solves it through Progressive Backward Self-Intervention (PBSI), simplifying the overall procedure of DBIE while further enhancing quality by fully leveraging region-level structure information and progressive guidance from intermediate drag states. We validate \textcolor{SkyBlue}{\textbf{DragNeXt}} on our NextBench, and extensive experiments demonstrate that our proposed method can significantly outperform existing approaches. Code will be released on github.
- Abstract(参考訳): ドラッグベースの画像編集(DBIE)は、ユーザーが直接オブジェクトをドラッグすることでイメージを操作できるようにするもので、最近コミュニティから多くの注目を集めている。
しかし、これは2つの大きな課題に直面している: (\emph{\textcolor{magenta}{i}}) ポイントベースのドラッグは、しばしばユーザーの意図と一致させることが困難であり、しばしば曖昧である; (\emph{\textcolor{magenta}{ii}}) 現在のDBIEメソッドは、主に動きの監視とポイントトラッキングの交互化に依存している。
これらの制限は、DBIEを新しい視点から探究する動機になります -- ユーザが指定したハンドル領域の変形、回転、翻訳として再定義します。
これにより、ユーザがドラッグ領域と型の両方を明示的に指定するように要求することで、あいまいさの問題に効果的に対処できる。
さらに,テキストカラー{SkyBlue}{\textbf{DragNeXt}} と呼ばれる単純なyet効率の編集フレームワークを提案する。
DBIEを潜在領域最適化(LRO)問題として統一し、プログレッシブ・バックワード・セルフ・インターベンション(PBSI)を通じて解決し、領域レベルの構造情報と中間ドラッグ状態からのプログレッシブガイダンスをフル活用することで、DBIEの全体的な手順を簡素化し、品質をさらに向上する。
NextBench 上で \textcolor{SkyBlue}{\textbf{DragNeXt}} を検証し,提案手法が既存手法よりも優れていることを示す。
コードはgithubでリリースされる。
関連論文リスト
- CLIPDrag: Combining Text-based and Drag-based Instructions for Image Editing [9.398831289389749]
テキストとドラッグ信号を組み合わせた新しい画像編集手法である textbfCLIPDrag を提案する。
CLIPDragは、既存の単一のドラッグベースのメソッドやテキストベースのメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-10-04T02:46:09Z) - RegionDrag: Fast Region-Based Image Editing with Diffusion Models [14.65208340413507]
RegionDragはコピー&ペーストドラッグ方式で、ユーザーは編集命令をハンドルとターゲット領域の形式で表現できる。
RegionDragは解像度512x512の画像を2秒未満で編集する。
論文 参考訳(メタデータ) (2024-07-25T17:59:13Z) - ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - FreeDrag: Feature Dragging for Reliable Point-based Image Editing [16.833998026980087]
我々は、ポイントトラッキングの負担を軽減すべく、FreeDragという機能ドラッグ手法を提案する。
FreeDragには、アダプティブ更新によるテンプレート機能と、バックトラックによるライン検索という、2つの重要な設計が含まれている。
提案手法は既存の手法よりも優れており,様々な複雑なシナリオにおいても信頼性の高い点ベースの編集が可能である。
論文 参考訳(メタデータ) (2023-07-10T16:37:46Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。