論文の概要: Training-free Geometric Image Editing on Diffusion Models
- arxiv url: http://arxiv.org/abs/2507.23300v1
- Date: Thu, 31 Jul 2025 07:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.220686
- Title: Training-free Geometric Image Editing on Diffusion Models
- Title(参考訳): 拡散モデルによる無トレーニング幾何画像編集
- Authors: Hanshen Zhu, Zhen Zhu, Kaile Zhang, Yiming Gong, Yuliang Liu, Xiang Bai,
- Abstract要約: 画像内の物体が再配置、再配向、あるいは再形成されるような幾何学的画像編集の課題に取り組む。
本稿では、オブジェクト変換、ソース領域のインペイント、ターゲット領域の洗練を分離する分離パイプラインを提案する。
塗装と精錬は、トレーニングフリーの拡散アプローチであるFreeFineを使って実装されている。
- 参考スコア(独自算出の注目度): 53.38549950608886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the task of geometric image editing, where an object within an image is repositioned, reoriented, or reshaped while preserving overall scene coherence. Previous diffusion-based editing methods often attempt to handle all relevant subtasks in a single step, proving difficult when transformations become large or structurally complex. We address this by proposing a decoupled pipeline that separates object transformation, source region inpainting, and target region refinement. Both inpainting and refinement are implemented using a training-free diffusion approach, FreeFine. In experiments on our new GeoBench benchmark, which contains both 2D and 3D editing scenarios, FreeFine outperforms state-of-the-art alternatives in image fidelity, and edit precision, especially under demanding transformations. Code and benchmark are available at: https://github.com/CIawevy/FreeFine
- Abstract(参考訳): 画像中の物体を配置したり、再配置したり、あるいは形を変えたりしながら、全体のシーンコヒーレンスを保ちながら、幾何学的画像編集の課題に取り組む。
従来の拡散ベースの編集法は、すべての関連するサブタスクを単一のステップで処理しようとすることが多く、変換が大きくなるか構造的に複雑になる場合、難しいことが証明される。
我々は、オブジェクト変換、ソース領域のインペイント、ターゲット領域の洗練を分離する分離パイプラインを提案することで、この問題に対処する。
塗装と精錬は、トレーニングフリーの拡散アプローチであるFreeFineを使って実装されている。
2次元および3次元の編集シナリオを含む新しいGeoBenchベンチマークの実験では、FreeFineは画像の忠実性において最先端の代替品よりも優れており、特に要求される変換において、精度が向上する。
コードとベンチマークは、https://github.com/CIawevy/FreeFine.comで入手できる。
関連論文リスト
- InverseMeetInsert: Robust Real Image Editing via Geometric Accumulation Inversion in Guided Diffusion Models [20.90990477016161]
GEO(Geometry-Inverse-Meet-Pixel-Insert,略してGeometry-Meet-Pixel-Insert)は、非常に多用途な画像編集技術である。
本手法では,テキストプロンプトと画像プロンプトをシームレスに統合し,多種多様な正確な編集結果を得る。
論文 参考訳(メタデータ) (2024-09-18T06:43:40Z) - GeoDiffuser: Geometry-Based Image Editing with Diffusion Models [7.7669649283012]
ゼロショット最適化に基づく2次元および3次元画像に基づくオブジェクト編集機能を1つの手法に統合するGeoDiffuserを提案する。
これらの変換は拡散モデルの注意層に直接組み込むことができ、暗黙的に編集操作を行うことができる。
GeoDiffuserは、オブジェクト翻訳、3Dローテーション、削除などの一般的な2Dおよび3D編集を実行することができる。
論文 参考訳(メタデータ) (2024-04-22T17:58:36Z) - Move Anything with Layered Scene Diffusion [77.45870343845492]
拡散サンプリング過程におけるシーン表現を最適化するために,SceneDiffusionを提案する。
我々の重要な洞察は、異なる空間配置のシーンレンダリングを共同でデノベートすることで、空間的ゆがみを得ることができることである。
生成したシーンは、移動、再サイズ、クローニング、レイヤーワイドな外観編集操作を含む、幅広い空間編集操作をサポートする。
論文 参考訳(メタデータ) (2024-04-10T17:28:16Z) - Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。
拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。
本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-03-14T15:07:36Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Plasticine3D: 3D Non-Rigid Editing with Text Guidance by Multi-View Embedding Optimization [21.8454418337306]
本研究では,3次元非剛性編集が可能なテキスト誘導型3D編集パイプラインであるPlastine3Dを提案する。
本研究は,編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し,構造と外観を別々に制御する。
細粒度制御のために,埋め込み空間の編集目的と原特徴を融合させるエンベディング・フュージョン (EF) を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:01:54Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - RecRecNet: Rectangling Rectified Wide-Angle Images by Thin-Plate Spline
Model and DoF-based Curriculum Learning [62.86400614141706]
我々はRecRecNet(Rectangling Rectification Network)という新しい学習モデルを提案する。
我々のモデルは、ソース構造をターゲット領域に柔軟にワープし、エンドツーエンドの非教師なし変形を実現する。
実験により, 定量評価と定性評価の両面において, 比較法よりも解法の方が優れていることが示された。
論文 参考訳(メタデータ) (2023-01-04T15:12:57Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。