論文の概要: FreeInsert: Personalized Object Insertion with Geometric and Style Control
- arxiv url: http://arxiv.org/abs/2509.20756v1
- Date: Thu, 25 Sep 2025 05:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.705882
- Title: FreeInsert: Personalized Object Insertion with Geometric and Style Control
- Title(参考訳): FreeInsert: 幾何学とスタイル制御を備えたパーソナライズされたオブジェクト挿入
- Authors: Yuhong Zhang, Han Wang, Yiwen Wang, Rong Xie, Li Song,
- Abstract要約: 3次元幾何情報を利用して任意のシーンへのオブジェクト挿入をカスタマイズする学習自由フレームワークを提案する。
レンダリングされた画像は、幾何学的制御として機能し、拡散アダプタによって達成されたスタイルとコンテンツ制御とを結合する。
- 参考スコア(独自算出の注目度): 26.088650452374726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have made significant progress in image generation, allowing for effortless customized generation. However, existing image editing methods still face certain limitations when dealing with personalized image composition tasks. First, there is the issue of lack of geometric control over the inserted objects. Current methods are confined to 2D space and typically rely on textual instructions, making it challenging to maintain precise geometric control over the objects. Second, there is the challenge of style consistency. Existing methods often overlook the style consistency between the inserted object and the background, resulting in a lack of realism. In addition, the challenge of inserting objects into images without extensive training remains significant. To address these issues, we propose \textit{FreeInsert}, a novel training-free framework that customizes object insertion into arbitrary scenes by leveraging 3D geometric information. Benefiting from the advances in existing 3D generation models, we first convert the 2D object into 3D, perform interactive editing at the 3D level, and then re-render it into a 2D image from a specified view. This process introduces geometric controls such as shape or view. The rendered image, serving as geometric control, is combined with style and content control achieved through diffusion adapters, ultimately producing geometrically controlled, style-consistent edited images via the diffusion model.
- Abstract(参考訳): テキストから画像への拡散モデルでは画像生成が大幅に進歩し、手動でカスタマイズされた生成が可能になった。
しかし、既存の画像編集手法は、パーソナライズされた画像合成タスクを扱う際には、一定の制限に直面している。
まず、挿入された物体に対する幾何学的制御の欠如が問題となる。
現在の手法は2次元空間に限定されており、典型的にはテキストによる指示に依存しているため、オブジェクトの正確な幾何学的制御を維持することは困難である。
第二に、スタイル整合性の課題があります。
既存のメソッドはしばしば挿入されたオブジェクトと背景の間のスタイルの一貫性を見落とし、リアリズムが欠如する。
さらに、広範囲のトレーニングを伴わない画像にオブジェクトを挿入するという課題も大きい。
これらの問題に対処するために,3次元幾何情報を活用することで任意のシーンへのオブジェクト挿入をカスタマイズする新しいトレーニングフリーフレームワークである \textit{FreeInsert} を提案する。
既存の3D生成モデルの進歩から、まず2Dオブジェクトを3Dに変換し、3Dレベルでインタラクティブな編集を行い、次に指定されたビューから2Dイメージに再レンダリングする。
このプロセスでは、形状やビューなどの幾何学的な制御が導入される。
レンダリングされた画像は、幾何学的制御として機能し、拡散アダプタによって達成されたスタイルとコンテンツ制御と組み合わせられ、最終的に拡散モデルを介して幾何学的に制御されたスタイル一貫性のある編集画像を生成する。
関連論文リスト
- 3D-LATTE: Latent Space 3D Editing from Textual Instructions [64.77718887666312]
本研究では,ネイティブな3次元拡散モデルの潜在空間内で動作する学習自由な編集手法を提案する。
生成元からの3Dアテンションマップとソースオブジェクトをブレンドすることで、編集合成をガイドする。
論文 参考訳(メタデータ) (2025-08-29T22:51:59Z) - Training-free Geometric Image Editing on Diffusion Models [53.38549950608886]
画像内の物体が再配置、再配向、あるいは再形成されるような幾何学的画像編集の課題に取り組む。
本稿では、オブジェクト変換、ソース領域のインペイント、ターゲット領域の洗練を分離する分離パイプラインを提案する。
塗装と精錬は、トレーニングフリーの拡散アプローチであるFreeFineを使って実装されている。
論文 参考訳(メタデータ) (2025-07-31T07:36:00Z) - 2D Instance Editing in 3D Space [39.53225056350435]
本稿では,2次元画像編集のための新しい「2D-3D-2D」フレームワークを提案する。
我々のアプローチは、2Dオブジェクトを3D表現に引き上げることから始まり、物理的に可塑性で剛性に制約された3D環境内での編集を可能にする。
DragGANやDragDiffusionのような既存の2D編集手法とは対照的に,本手法は3D環境において直接オブジェクトを操作できる。
論文 参考訳(メタデータ) (2025-07-08T09:38:39Z) - LACONIC: A 3D Layout Adapter for Controllable Image Creation [22.96293773013579]
誘導画像合成のための既存の生成アプローチは、画像やテキスト空間の2D制御に依存している。
本稿では,事前訓練されたテキスト・画像拡散モデルに接続可能な新しい条件付け手法,トレーニング方法,アダプタネットワークを提案する。
本手法は, カメラ制御, 明快な3次元空間におけるジオメトリの条件付け, シーンのコンテキスト全体について初めて記述する。
論文 参考訳(メタデータ) (2025-07-04T02:25:36Z) - 3DSwapping: Texture Swapping For 3D Object From Single Reference Image [21.454340647455236]
3Dテクスチャスワップは、3Dオブジェクトテクスチャのカスタマイズを可能にする。
専用の方法はないが、適応された2D編集とテキスト駆動の3D編集アプローチは、この目的を果たすことができる。
3DSワッピング,3次元テクスチャスワッピング方式を導入し,プログレッシブ・ジェネレーション,ビュー・コンシスタンス・グラデーション・ガイダンス,プロンプト・チューニング・グラデーション・ガイダンスを統合した。
論文 参考訳(メタデータ) (2025-03-24T16:31:52Z) - Image Sculpting: Precise Object Editing with 3D Geometry Control [33.9777412846583]
Image Sculptingは、3D幾何学とグラフィックスのツールを組み込むことで、2D画像を編集する新しいフレームワークである。
これは、ポーズ編集、回転、翻訳、3D合成、彫刻、シリアル追加といった、正確で定量化され、物理的に証明可能な編集オプションをサポートする。
論文 参考訳(メタデータ) (2024-01-02T18:59:35Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z) - Cross-Modal 3D Shape Generation and Manipulation [62.50628361920725]
本稿では,2次元のモダリティと暗黙の3次元表現を共用した多モード生成モデルを提案する。
グレースケールラインスケッチとレンダリングカラー画像の2つの代表的な2次元モーダル性について,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2022-07-24T19:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。