論文の概要: Towards Source-Aware Object Swapping with Initial Noise Perturbation
- arxiv url: http://arxiv.org/abs/2602.23697v1
- Date: Fri, 27 Feb 2026 05:54:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.268076
- Title: Towards Source-Aware Object Swapping with Initial Noise Perturbation
- Title(参考訳): 初期雑音摂動を考慮した音源認識オブジェクトスワッピングの実現に向けて
- Authors: Jiahui Zhan, Xianbing Sun, Xiangnan Zhu, Yikun Ji, Ruitong Liu, Liqing Zhang, Jianfu Zhang,
- Abstract要約: SourceSwapは、オブジェクト間のアライメントを学習する、自己管理的でソース対応のフレームワークである。
我々は、フルソースコンディショニングとノイズフリー参照エンコーダを備えたデュアルU-Netを訓練し、直接オブジェクト間アライメントを可能にする。
実験により、SourceSwapは優れた忠実さ、より強いシーン保存、より自然な調和を実現していることが示された。
- 参考スコア(独自算出の注目度): 10.974803680416876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object swapping aims to replace a source object in a scene with a reference object while preserving object fidelity, scene fidelity, and object-scene harmony. Existing methods either require per-object finetuning and slow inference or rely on extra paired data that mostly depict the same object across contexts, forcing models to rely on background cues rather than learning cross-object alignment. We propose SourceSwap, a self-supervised and source-aware framework that learns cross-object alignment. Our key insight is to synthesize high-quality pseudo pairs from any image via a frequency-separated perturbation in the initial-noise space, which alters appearance while preserving pose, coarse shape, and scene layout, requiring no videos, multi-view data, or additional images. We then train a dual U-Net with full-source conditioning and a noise-free reference encoder, enabling direct inter-object alignment, zero-shot inference without per-object finetuning, and lightweight iterative refinement. We further introduce SourceBench, a high-quality benchmark with higher resolution, more categories, and richer interactions. Experiments demonstrate that SourceSwap achieves superior fidelity, stronger scene preservation, and more natural harmony, and it transfers well to edits such as subject-driven refinement and face swapping.
- Abstract(参考訳): オブジェクトスワッピングは、オブジェクトの忠実さ、シーンの忠実さ、オブジェクトシーンの調和を保ちながら、シーン内のソースオブジェクトを参照オブジェクトに置き換えることを目的としている。
既存の手法では、オブジェクトごとの微調整と遅い推論を必要とするか、あるいはコンテキストを横断して同じオブジェクトを主に表現する余分なペアデータに依存しているため、モデルはオブジェクト間のアライメントを学ぶのではなく、背景のキューに頼らざるを得ない。
我々は、オブジェクト間のアライメントを学習する自己教師型およびソース認識フレームワークであるSourceSwapを提案する。
我々の重要な洞察は、ポーズ、粗い形状、シーンレイアウトを保ちながら外観を変え、ビデオ、マルチビューデータ、追加画像を必要としない初期雑音空間における周波数分離摂動を通して、任意の画像から高品質な擬似対を合成することである。
次に、フルソースコンディショニングとノイズフリー参照エンコーダを備えたデュアルU-Netをトレーニングし、直接オブジェクト間アライメント、オブジェクトごとの微調整なしのゼロショット推論、軽量イテレーティブリファインメントを実現した。
我々はさらに、高解像度、より多くのカテゴリ、よりリッチなインタラクションを備えた高品質なベンチマークであるSourceBenchを紹介します。
実験により、SourceSwapはより優れた忠実さ、より強いシーン保存、より自然な調和を実現し、主観駆動の洗練や顔交換といった編集にうまく移行していることが示された。
関連論文リスト
- PLACID: Identity-Preserving Multi-Object Compositing via Video Diffusion with Synthetic Trajectories [22.63777279327245]
PLACIDは、オブジェクトイメージの集合を魅力的なマルチオブジェクト複合体に変換するフレームワークである。
まず、事前訓練された画像間拡散モデルとテキスト制御を用いて、オブジェクトの一貫性、アイデンティティ、背景の詳細を保存する。
第2に、ランダムに配置されたオブジェクトがターゲット位置へスムーズに移動する合成シーケンスを生成する新しいデータキュレーション戦略を提案する。
論文 参考訳(メタデータ) (2026-01-30T19:42:54Z) - Learning Object-Centric Representations Based on Slots in Real World Scenarios [5.922488908114023]
この論文では、オブジェクト中心合成のための強力な事前学習拡散モデルを適用するフレームワークを紹介している。
我々は、大域的なシーンコヒーレンスと不整合オブジェクト制御のバランスをとるという、重要な課題を識別する。
本手法は,軽量なスロットベースの条件付けを事前訓練されたモデルに統合し,オブジェクト固有の操作を提供しながら,それらの視覚的先行を保留する。
論文 参考訳(メタデータ) (2025-09-29T12:01:49Z) - ObjectGS: Object-aware Scene Reconstruction and Scene Understanding via Gaussian Splatting [54.92763171355442]
ObjectGSは3Dシーンをセマンティックな理解と統合するオブジェクト認識フレームワークである。
我々はObjectGSがオープンボキャブラリやパン光学のセグメンテーションタスクにおいて最先端の手法より優れていることを示す実験を通して示す。
論文 参考訳(メタデータ) (2025-07-21T10:06:23Z) - ObjectMover: Generative Object Movement with Video Prior [69.75281888309017]
本稿では,難易度の高いシーンでオブジェクトの動きを再現できる生成モデルであるObjectMoverを提案する。
このアプローチにより、我々のモデルは複雑な現実世界のシナリオに適応できることを示す。
本稿では,実世界の映像データを学習してモデル一般化を改善するマルチタスク学習戦略を提案する。
論文 参考訳(メタデータ) (2025-03-11T04:42:59Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。
我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文 参考訳(メタデータ) (2023-07-18T17:59:02Z) - ObjectStitch: Generative Object Compositing [43.206123360578665]
本研究では,条件付き拡散モデルを用いたオブジェクト合成のための自己教師型フレームワークを提案する。
我々のフレームワークは、手動ラベリングを必要とせず、生成したオブジェクトの視点、幾何学、色、影を変換することができる。
本手法は, 実世界の様々な画像に対するユーザ研究において, 合成結果画像の写実性と忠実性の両方において, 関連ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-12-02T02:15:13Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。