論文の概要: Geometric Image Editing via Effects-Sensitive In-Context Inpainting with Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2602.08388v1
- Date: Mon, 09 Feb 2026 08:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.130784
- Title: Geometric Image Editing via Effects-Sensitive In-Context Inpainting with Diffusion Transformers
- Title(参考訳): 拡散変換器を用いた効果感性インテクスト塗装による幾何学的画像編集
- Authors: Shuo Zhang, Wenzhuo Wu, Huayu Zhang, Jiarong Cheng, Xianghao Zang, Chao Ban, Hao Sun, Zhongjiang He, Tianwei Cao, Kongming Liang, Zhanyu Ma,
- Abstract要約: GeoEditは、正確なオブジェクト編集のための幾何学変換を統合するフレームワークである。
エフェクト・コンテクスト・アテンションは、複雑な照明とシャドーエフェクトのモデリングを強化し、リアリズムを改善する。
RS-Objectsは、12万以上の高品質の画像ペアを含む大規模な幾何学的編集データセットである。
- 参考スコア(独自算出の注目度): 41.08668138583002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion models have significantly improved image editing. However, challenges persist in handling geometric transformations, such as translation, rotation, and scaling, particularly in complex scenes. Existing approaches suffer from two main limitations: (1) difficulty in achieving accurate geometric editing of object translation, rotation, and scaling; (2) inadequate modeling of intricate lighting and shadow effects, leading to unrealistic results. To address these issues, we propose GeoEdit, a framework that leverages in-context generation through a diffusion transformer module, which integrates geometric transformations for precise object edits. Moreover, we introduce Effects-Sensitive Attention, which enhances the modeling of intricate lighting and shadow effects for improved realism. To further support training, we construct RS-Objects, a large-scale geometric editing dataset containing over 120,000 high-quality image pairs, enabling the model to learn precise geometric editing while generating realistic lighting and shadows. Extensive experiments on public benchmarks demonstrate that GeoEdit consistently outperforms state-of-the-art methods in terms of visual quality, geometric accuracy, and realism.
- Abstract(参考訳): 拡散モデルの最近の進歩は画像編集を大幅に改善した。
しかし、特に複雑な場面において、翻訳、回転、スケーリングといった幾何学的変換を扱う際の課題は続いている。
既存のアプローチには,(1) 物体の翻訳,回転,スケーリングの正確な幾何的編集の難しさ,(2) 複雑な照明と影効果の不十分なモデリング,そして非現実的な結果をもたらす2つの主な限界がある。
これらの問題に対処するために,拡散トランスフォーマーモジュールを通じてコンテキスト内生成を利用するフレームワークGeoEditを提案し,正確なオブジェクト編集のための幾何学変換を統合する。
さらに、複雑な照明と影効果のモデリングを強化し、現実性を向上させるエフェクト・センシティブ・アテンション(Effective-Sensitive Attention)を導入する。
トレーニングをさらに支援するために,12万以上の高品質な画像ペアを含む大規模な幾何学的編集データセットであるRS-Objectsを構築し,リアルな照明と影を生成しながら正確な幾何学的編集を学べるようにした。
公開ベンチマークでの大規模な実験により、GeoEditは視覚的品質、幾何学的精度、リアリズムの点で最先端の手法を一貫して上回っていることが示された。
関連論文リスト
- World-Shaper: A Unified Framework for 360° Panoramic Editing [57.174341220144605]
既存の視点に基づく画像編集手法ではパノラマの空間構造をモデル化できない。
一つの編集中心の設計にパノラマ生成と編集をブリッジする統合幾何認識フレームワークであるWorld-Shaperを提案する。
本手法はSOTA法と比較して, 幾何的整合性, 編集精度, テキスト制御性に優れる。
論文 参考訳(メタデータ) (2026-01-30T19:38:54Z) - Dragging with Geometry: From Pixels to Geometry-Guided Image Editing [42.176957681367185]
幾何学誘導型ドラッグベース画像編集手法であるGeoDragを提案する。
ジオドラグは3次元幾何学と2次元空間先行を共同で符号化する統一された変位場に基づいており、コヒーレントで高忠実で構造に一貫性のある編集を可能にしている。
論文 参考訳(メタデータ) (2025-09-30T03:53:11Z) - Training-free Geometric Image Editing on Diffusion Models [53.38549950608886]
画像内の物体が再配置、再配向、あるいは再形成されるような幾何学的画像編集の課題に取り組む。
本稿では、オブジェクト変換、ソース領域のインペイント、ターゲット領域の洗練を分離する分離パイプラインを提案する。
塗装と精錬は、トレーニングフリーの拡散アプローチであるFreeFineを使って実装されている。
論文 参考訳(メタデータ) (2025-07-31T07:36:00Z) - SphereDrag: Spherical Geometry-Aware Panoramic Image Editing [53.87789202723925]
SphereDragは,球面形状の知識を利用した新しいパノラマ編集フレームワークである。
具体的には、適応的再射(AR)は不連続性に対処するために適応的な球面回転を使い、GCTA(Great-circle trajectory adjust)は運動軌跡をより正確に追跡する。
また、パノラマ編集ベンチマークであるPanoBenchを構築し、複数のオブジェクトと多様なスタイルを含む複雑な編集タスクを含む、標準化された評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-06-13T15:13:09Z) - Advancing 3D Gaussian Splatting Editing with Complementary and Consensus Information [4.956066467858058]
テキスト誘導型3Dガウス版(3DGS)編集の視覚的忠実度と一貫性を向上させるための新しいフレームワークを提案する。
本手法は,最先端手法と比較して,レンダリング品質とビューの整合性に優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-14T17:15:26Z) - Plasticine3D: 3D Non-Rigid Editing with Text Guidance by Multi-View Embedding Optimization [21.8454418337306]
本研究では,3次元非剛性編集が可能なテキスト誘導型3D編集パイプラインであるPlastine3Dを提案する。
本研究は,編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し,構造と外観を別々に制御する。
細粒度制御のために,埋め込み空間の編集目的と原特徴を融合させるエンベディング・フュージョン (EF) を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。