論文の概要: PLACID: Identity-Preserving Multi-Object Compositing via Video Diffusion with Synthetic Trajectories
- arxiv url: http://arxiv.org/abs/2602.00267v1
- Date: Fri, 30 Jan 2026 19:42:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.08636
- Title: PLACID: Identity-Preserving Multi-Object Compositing via Video Diffusion with Synthetic Trajectories
- Title(参考訳): PLACID:合成軌道を用いたビデオ拡散による同一性保存多目的合成
- Authors: Gemma Canet Tarrés, Manel Baradad, Francesc Moreno-Noguer, Yumeng Li,
- Abstract要約: PLACIDは、オブジェクトイメージの集合を魅力的なマルチオブジェクト複合体に変換するフレームワークである。
まず、事前訓練された画像間拡散モデルとテキスト制御を用いて、オブジェクトの一貫性、アイデンティティ、背景の詳細を保存する。
第2に、ランダムに配置されたオブジェクトがターゲット位置へスムーズに移動する合成シーケンスを生成する新しいデータキュレーション戦略を提案する。
- 参考スコア(独自算出の注目度): 22.63777279327245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generative AI have dramatically improved photorealistic image synthesis, yet they fall short for studio-level multi-object compositing. This task demands simultaneous (i) near-perfect preservation of each item's identity, (ii) precise background and color fidelity, (iii) layout and design elements control, and (iv) complete, appealing displays showcasing all objects. However, current state-of-the-art models often alter object details, omit or duplicate objects, and produce layouts with incorrect relative sizing or inconsistent item presentations. To bridge this gap, we introduce PLACID, a framework that transforms a collection of object images into an appealing multi-object composite. Our approach makes two main contributions. First, we leverage a pretrained image-to-video (I2V) diffusion model with text control to preserve objects consistency, identities, and background details by exploiting temporal priors from videos. Second, we propose a novel data curation strategy that generates synthetic sequences where randomly placed objects smoothly move to their target positions. This synthetic data aligns with the video model's temporal priors during training. At inference, objects initialized at random positions consistently converge into coherent layouts guided by text, with the final frame serving as the composite image. Extensive quantitative evaluations and user studies demonstrate that PLACID surpasses state-of-the-art methods in multi-object compositing, achieving superior identity, background, and color preservation, with less omitted objects and visually appealing results.
- Abstract(参考訳): 生成AIの最近の進歩は、フォトリアリスティックな画像合成を劇的に改善しているが、スタジオレベルのマルチオブジェクト合成では不足している。
このタスクは同時に要求される
一 各商品の身元をほぼ完全に保存すること。
(二)厳密な背景と色彩の忠実さ
三 レイアウト及び設計要素の制御、及び
(4)全てのオブジェクトを展示する、完全で魅力的なディスプレイ。
しかし、現在の最先端モデルは、しばしばオブジェクトの詳細、省略または重複オブジェクトを変更し、不正な相対的なサイズまたは矛盾したアイテムの表示を伴うレイアウトを生成する。
このギャップを埋めるために,対象画像の集合を魅力的な多目的合成に変換するPLACIDを導入する。
私たちのアプローチは2つの主な貢献をします。
まず、事前訓練された画像間拡散モデルとテキスト制御を用いて、ビデオからの時間的優先順位を利用して、オブジェクトの一貫性、アイデンティティ、背景の詳細を保存する。
第2に、ランダムに配置されたオブジェクトがターゲット位置へスムーズに移動する合成シーケンスを生成する新しいデータキュレーション戦略を提案する。
この合成データは、トレーニング中のビデオモデルの時間的先行値と一致する。
推測において、ランダムな位置で初期化されたオブジェクトは、テキストでガイドされたコヒーレントなレイアウトに一貫して収束し、最終フレームは合成画像として機能する。
広汎な定量的評価とユーザスタディにより、PLACIDは多目的合成における最先端の手法を超越し、より優れたアイデンティティ、背景、色保存を実現し、省略されたオブジェクトが少なく、視覚的に魅力的な結果が得られることが示された。
関連論文リスト
- Learning Object-Centric Representations Based on Slots in Real World Scenarios [5.922488908114023]
この論文では、オブジェクト中心合成のための強力な事前学習拡散モデルを適用するフレームワークを紹介している。
我々は、大域的なシーンコヒーレンスと不整合オブジェクト制御のバランスをとるという、重要な課題を識別する。
本手法は,軽量なスロットベースの条件付けを事前訓練されたモデルに統合し,オブジェクト固有の操作を提供しながら,それらの視覚的先行を保留する。
論文 参考訳(メタデータ) (2025-09-29T12:01:49Z) - ComposeAnything: Composite Object Priors for Text-to-Image Generation [72.98469853839246]
ComposeAnythingは、既存のT2Iモデルを再トレーニングすることなく、合成画像生成を改善するための新しいフレームワークである。
提案手法はまずLLMの連鎖推論能力を活用し,テキストから2.5Dのセマンティックレイアウトを生成する。
本モデルでは,テキストを忠実に反映した合成による高品質な画像を生成する。
論文 参考訳(メタデータ) (2025-05-30T00:13:36Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - IMPRINT: Generative Object Compositing by Learning Identity-Preserving Representation [40.34581973675213]
IMPRINTは、2段階の学習フレームワークでトレーニングされた新しい拡散ベースの生成モデルである。
最初のステージは、オブジェクトエンコーダのコンテキストに依存しない、アイデンティティを保存する事前トレーニングをターゲットにしている。
第2段階では、この表現を利用して、背景に合成されたオブジェクトのシームレスな調和を学ぶ。
論文 参考訳(メタデータ) (2024-03-15T21:37:04Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - ObjectStitch: Generative Object Compositing [43.206123360578665]
本研究では,条件付き拡散モデルを用いたオブジェクト合成のための自己教師型フレームワークを提案する。
我々のフレームワークは、手動ラベリングを必要とせず、生成したオブジェクトの視点、幾何学、色、影を変換することができる。
本手法は, 実世界の様々な画像に対するユーザ研究において, 合成結果画像の写実性と忠実性の両方において, 関連ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-12-02T02:15:13Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。