論文の概要: Dragging with Geometry: From Pixels to Geometry-Guided Image Editing
- arxiv url: http://arxiv.org/abs/2509.25740v1
- Date: Tue, 30 Sep 2025 03:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.008025
- Title: Dragging with Geometry: From Pixels to Geometry-Guided Image Editing
- Title(参考訳): 幾何学によるドラッグ: 画像から幾何学誘導画像編集へ
- Authors: Xinyu Pu, Hongsong Wang, Jie Gui, Pan Zhou,
- Abstract要約: 幾何学誘導型ドラッグベース画像編集手法であるGeoDragを提案する。
ジオドラグは3次元幾何学と2次元空間先行を共同で符号化する統一された変位場に基づいており、コヒーレントで高忠実で構造に一貫性のある編集を可能にしている。
- 参考スコア(独自算出の注目度): 42.176957681367185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive point-based image editing serves as a controllable editor, enabling precise and flexible manipulation of image content. However, most drag-based methods operate primarily on the 2D pixel plane with limited use of 3D cues. As a result, they often produce imprecise and inconsistent edits, particularly in geometry-intensive scenarios such as rotations and perspective transformations. To address these limitations, we propose a novel geometry-guided drag-based image editing method - GeoDrag, which addresses three key challenges: 1) incorporating 3D geometric cues into pixel-level editing, 2) mitigating discontinuities caused by geometry-only guidance, and 3) resolving conflicts arising from multi-point dragging. Built upon a unified displacement field that jointly encodes 3D geometry and 2D spatial priors, GeoDrag enables coherent, high-fidelity, and structure-consistent editing in a single forward pass. In addition, a conflict-free partitioning strategy is introduced to isolate editing regions, effectively preventing interference and ensuring consistency. Extensive experiments across various editing scenarios validate the effectiveness of our method, showing superior precision, structural consistency, and reliable multi-point editability. The code will be available on https://github.com/xinyu-pu/GeoDrag .
- Abstract(参考訳): インタラクティブなポイントベースの画像編集は、制御可能なエディタとして機能し、画像コンテンツの正確かつ柔軟な操作を可能にする。
しかしながら、ほとんどのドラッグベースの手法は、主に3Dキューを限定的に使用した2Dピクセル平面で動作する。
結果として、特に回転や視点変換のような幾何学的集約的なシナリオにおいて、不正確で一貫性のない編集をしばしば生み出す。
これらの制約に対処するために,ジオドラッグという3つの重要な課題に対処する幾何学誘導型ドラッグベース画像編集手法を提案する。
1)3次元幾何学的手がかりをピクセルレベルの編集に取り入れる。
2 幾何学のみによる不連続の緩和及び
3)多点引きずりによる紛争の解決。
ジオドラグは3次元幾何と2次元空間先行を共同で符号化する統一された変位場に基づいており、コヒーレントで高忠実で構造に一貫性のある編集を1つの前方通過で実現している。
さらに、編集領域を分離し、干渉を効果的に防止し、一貫性を確保するために、競合のない分割戦略を導入する。
本手法の有効性を検証し, 精度, 構造整合性, 信頼性の高い多点編集性を示す。
コードはhttps://github.com/xinyu-pu/GeoDragで入手できる。
関連論文リスト
- World-Shaper: A Unified Framework for 360° Panoramic Editing [57.174341220144605]
既存の視点に基づく画像編集手法ではパノラマの空間構造をモデル化できない。
一つの編集中心の設計にパノラマ生成と編集をブリッジする統合幾何認識フレームワークであるWorld-Shaperを提案する。
本手法はSOTA法と比較して, 幾何的整合性, 編集精度, テキスト制御性に優れる。
論文 参考訳(メタデータ) (2026-01-30T19:38:54Z) - POCI-Diff: Position Objects Consistently and Interactively with 3D-Layout Guided Diffusion [46.97254555348757]
本稿では,テキスト・トゥ・イメージ(T2I)生成のための拡散型アプローチを提案する。
連続的かつインタラクティブな位置決めのためのフレームワーク(POCI-Diff)を導入する。
本手法は,個々のテキスト記述を特定の3次元境界ボックスに結合することで,オブジェクトごとのセマンティック制御を可能にする。
論文 参考訳(メタデータ) (2026-01-20T15:13:43Z) - 3DGS-Drag: Dragging Gaussians for Intuitive Point-Based 3D Editing [58.54083747494426]
3DGS-Dragはポイントベースの3D編集フレームワークで、リアルな3Dシーンを効率よく直感的にドラッグ操作できる。
本手法は,変形に基づく3次元編集と2次元編集による3次元編集のギャップを埋めるものである。
論文 参考訳(メタデータ) (2026-01-12T19:57:31Z) - FlowDrag: 3D-aware Drag-based Image Editing with Mesh-guided Deformation Vector Flow Fields [20.793887576117527]
幾何情報を利用してより正確でコヒーレントな変換を行うFlowDragを提案する。
提案手法は,ユーザ定義のドラッグポイントに基づくメッシュ変形を誘導するエネルギー関数を用いて,画像から3次元メッシュを構築する。
得られたメッシュの変位は2Dに投影され、UNetデノナイジングプロセスに組み込まれ、正確なハンド・ツー・ターゲットのポイントアライメントを可能にする。
論文 参考訳(メタデータ) (2025-07-11T03:18:52Z) - SphereDrag: Spherical Geometry-Aware Panoramic Image Editing [53.87789202723925]
SphereDragは,球面形状の知識を利用した新しいパノラマ編集フレームワークである。
具体的には、適応的再射(AR)は不連続性に対処するために適応的な球面回転を使い、GCTA(Great-circle trajectory adjust)は運動軌跡をより正確に追跡する。
また、パノラマ編集ベンチマークであるPanoBenchを構築し、複数のオブジェクトと多様なスタイルを含む複雑な編集タスクを含む、標準化された評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-06-13T15:13:09Z) - Advancing 3D Gaussian Splatting Editing with Complementary and Consensus Information [4.956066467858058]
テキスト誘導型3Dガウス版(3DGS)編集の視覚的忠実度と一貫性を向上させるための新しいフレームワークを提案する。
本手法は,最先端手法と比較して,レンダリング品質とビューの整合性に優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-14T17:15:26Z) - Drag Your Gaussian: Effective Drag-Based Editing with Score Distillation for 3D Gaussian Splatting [55.14822004410817]
DYGは3次元ガウススプラッティングのための効果的な3次元ドラッグベース編集法である。
3次元マスクと一対の制御点を入力して編集範囲を正確に制御できる。
DYGは暗黙三面体表現の強さを統合し、編集結果の幾何学的足場を確立する。
論文 参考訳(メタデータ) (2025-01-30T18:51:54Z) - PrEditor3D: Fast and Precise 3D Shape Editing [100.09112677669376]
本稿では,1つの形状の編集を数分以内に行うことができる3D編集のためのトレーニングフリーアプローチを提案する。
編集された3Dメッシュはプロンプトとよく一致しており、変更を意図していない領域でも同じである。
論文 参考訳(メタデータ) (2024-12-09T15:44:47Z) - Plasticine3D: 3D Non-Rigid Editing with Text Guidance by Multi-View Embedding Optimization [21.8454418337306]
本研究では,3次元非剛性編集が可能なテキスト誘導型3D編集パイプラインであるPlastine3Dを提案する。
本研究は,編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し,構造と外観を別々に制御する。
細粒度制御のために,埋め込み空間の編集目的と原特徴を融合させるエンベディング・フュージョン (EF) を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:01:54Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。