論文の概要: SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing
- arxiv url: http://arxiv.org/abs/2604.04911v2
- Date: Wed, 08 Apr 2026 04:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 14:06:05.082919
- Title: SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing
- Title(参考訳): SpaceEdit: きめ細かい画像空間編集のベンチマーク
- Authors: Yicheng Xiao, Wenhu Zhang, Lin Song, Yukang Chen, Wenbo Li, Nan Jiang, Tianhe Ren, Haokun Lin, Wei Huang, Haoyang Huang, Xiu Li, Nan Duan, Xiaojuan Qi,
- Abstract要約: 画像空間編集は幾何学的な変換を行い、オブジェクトのレイアウトやカメラの視点を正確に制御できる。
現在のモデルはきめ細かい空間操作には不十分であり、専用のアセスメントスイートを動機付けている。
本研究では,空間編集を評価する完全ベンチマークであるSpatialEdit-Benchを紹介する。
制御可能なブレンダーパイプラインで生成された合成データセットであるSpatialEdit-500kを構築した。
- 参考スコア(独自算出の注目度): 85.49998134609665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image spatial editing performs geometry-driven transformations, allowing precise control over object layout and camera viewpoints. Current models are insufficient for fine-grained spatial manipulations, motivating a dedicated assessment suite. Our contributions are listed: (i) We introduce SpatialEdit-Bench, a complete benchmark that evaluates spatial editing by jointly measuring perceptual plausibility and geometric fidelity via viewpoint reconstruction and framing analysis. (ii) To address the data bottleneck for scalable training, we construct SpatialEdit-500k, a synthetic dataset generated with a controllable Blender pipeline that renders objects across diverse backgrounds and systematic camera trajectories, providing precise ground-truth transformations for both object- and camera-centric operations. (iii) Building on this data, we develop SpatialEdit-16B, a baseline model for fine-grained spatial editing. Our method achieves competitive performance on general editing while substantially outperforming prior methods on spatial manipulation tasks. All resources will be made public at https://github.com/EasonXiao-888/SpatialEdit.
- Abstract(参考訳): 画像空間編集は幾何学的な変換を行い、オブジェクトのレイアウトやカメラの視点を正確に制御できる。
現在のモデルはきめ細かい空間操作には不十分であり、専用のアセスメントスイートを動機付けている。
私たちのコントリビューションは以下のとおりです。
(i)SpatialEdit-Benchは、視線再構成とフレーミング分析により、知覚的妥当性と幾何学的忠実度を共同で測定し、空間的編集を評価する完全ベンチマークである。
2) スケーラブルなトレーニングのためのデータのボトルネックを解決するため,さまざまな背景やカメラトラジェクトリにオブジェクトをレンダリングする制御可能なBlenderパイプラインで生成された合成データセットであるSpatialEdit-500kを構築した。
3) このデータに基づいて, きめ細かい空間編集のためのベースラインモデルであるSpatialEdit-16Bを開発した。
本手法は,空間的操作タスクにおいて,従来の手法よりもかなり優れた性能を保ちながら,一般的な編集における競争性能を実現する。
すべてのリソースはhttps://github.com/EasonXiao-888/SpatialEditで公開されます。
関連論文リスト
- InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning [60.799998743918955]
複雑な現実世界のシーンにおける微細な画像編集のためのテキストビジョンインターリーブド・チェーン・オブ・グラウンド推論フレームワークを提案する。
InterCoGの重要な洞察は、まずテキスト内でのみオブジェクト位置推論を実行することである。
また,マルチモーダル・グラウンド・ライティング・アライメント・アライメントとマルチモーダル・グラウンド・ライティング・アライメント・アライメントの2つの補助的トレーニング・モジュールを提案する。
論文 参考訳(メタデータ) (2026-03-02T08:13:16Z) - Geometric Image Editing via Effects-Sensitive In-Context Inpainting with Diffusion Transformers [41.08668138583002]
GeoEditは、正確なオブジェクト編集のための幾何学変換を統合するフレームワークである。
エフェクト・コンテクスト・アテンションは、複雑な照明とシャドーエフェクトのモデリングを強化し、リアリズムを改善する。
RS-Objectsは、12万以上の高品質の画像ペアを含む大規模な幾何学的編集データセットである。
論文 参考訳(メタデータ) (2026-02-09T08:39:47Z) - LocateEdit-Bench: A Benchmark for Instruction-Based Editing Localization [21.62979058692505]
フォージェリローカライゼーション手法をベンチマークするために,231ドルの編集画像からなる大規模データセットを提案する。
データセットには、4つの最先端編集モデルと3つの一般的な編集タイプが組み込まれている。
我々の研究は、画像編集の進化する状況に追従する基盤を確立し、将来の偽のローカライゼーションのための効果的な手法の開発を容易にする。
論文 参考訳(メタデータ) (2026-02-05T12:01:09Z) - Realistic and Controllable 3D Gaussian-Guided Object Editing for Driving Video Generation [12.982001613987315]
G2Editorは、ビデオ駆動時の不正確で正確なオブジェクト編集のために設計されたフレームワークである。
シーンレベルの3Dバウンディングボックスレイアウトを用いて、非ターゲットオブジェクトの隠蔽領域を再構築する。
実験によると、G2Editorは統一されたフレームワーク内でオブジェクトの配置、挿入、削除を効果的にサポートする。
論文 参考訳(メタデータ) (2025-08-28T06:39:53Z) - Training-free Geometric Image Editing on Diffusion Models [53.38549950608886]
画像内の物体が再配置、再配向、あるいは再形成されるような幾何学的画像編集の課題に取り組む。
本稿では、オブジェクト変換、ソース領域のインペイント、ターゲット領域の洗練を分離する分離パイプラインを提案する。
塗装と精錬は、トレーニングフリーの拡散アプローチであるFreeFineを使って実装されている。
論文 参考訳(メタデータ) (2025-07-31T07:36:00Z) - SphereDrag: Spherical Geometry-Aware Panoramic Image Editing [53.87789202723925]
SphereDragは,球面形状の知識を利用した新しいパノラマ編集フレームワークである。
具体的には、適応的再射(AR)は不連続性に対処するために適応的な球面回転を使い、GCTA(Great-circle trajectory adjust)は運動軌跡をより正確に追跡する。
また、パノラマ編集ベンチマークであるPanoBenchを構築し、複数のオブジェクトと多様なスタイルを含む複雑な編集タスクを含む、標準化された評価フレームワークを提供する。
論文 参考訳(メタデータ) (2025-06-13T15:13:09Z) - PixelMan: Consistent Object Editing with Diffusion Models via Pixel Manipulation and Generation [15.342060815068347]
PixelManは、Pixel操作と生成を通じて一貫したオブジェクト編集を実現するための、インバージョンフリーでトレーニング不要な方法である。
数16の推論ステップにおいて、PixelManは最先端のトレーニングベースおよびトレーニングフリーメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-12-18T19:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。