論文の概要: LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas
- arxiv url: http://arxiv.org/abs/2510.20820v2
- Date: Mon, 27 Oct 2025 17:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.498712
- Title: LayerComposer: Interactive Personalized T2I via Spatially-Aware Layered Canvas
- Title(参考訳): LayerComposer:空間認識層キャンバスによる対話型パーソナライズT2I
- Authors: Guocheng Gordon Qian, Ruihang Zhang, Tsai-Shien Chen, Yusuf Dalva, Anujraaj Argo Goyal, Willi Menapace, Ivan Skorokhodov, Meng Dong, Arpit Sahni, Daniil Ostashev, Ju Hu, Sergey Tulyakov, Kuan-Chieh Jackson Wang,
- Abstract要約: 我々は、パーソナライズされたマルチオブジェクトのテキスト・ツー・イメージ生成のためのインタラクティブなフレームワークであるLayerComposerを紹介する。
提案された層状キャンバスは、直感的な層操作によって入力対象の配置、サイズ変更、ロックを可能にする。
ロック機構はアーキテクチャ上の変更を必要とせず、代わりに、新しい補完的なデータサンプリング戦略と組み合わせて、固有の位置埋め込みに依存します。
- 参考スコア(独自算出の注目度): 47.5187068545227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their impressive visual fidelity, existing personalized generative models lack interactive control over spatial composition and scale poorly to multiple subjects. To address these limitations, we present LayerComposer, an interactive framework for personalized, multi-subject text-to-image generation. Our approach introduces two main contributions: (1) a layered canvas, a novel representation in which each subject is placed on a distinct layer, enabling occlusion-free composition; and (2) a locking mechanism that preserves selected layers with high fidelity while allowing the remaining layers to adapt flexibly to the surrounding context. Similar to professional image-editing software, the proposed layered canvas allows users to place, resize, or lock input subjects through intuitive layer manipulation. Our versatile locking mechanism requires no architectural changes, relying instead on inherent positional embeddings combined with a new complementary data sampling strategy. Extensive experiments demonstrate that LayerComposer achieves superior spatial control and identity preservation compared to the state-of-the-art methods in multi-subject personalized image generation.
- Abstract(参考訳): その印象的な視覚的忠実さにもかかわらず、既存のパーソナライズされた生成モデルは、空間的構成に対するインタラクティブな制御が欠如し、複数の被験者に悪影響を及ぼす。
このような制限に対処するために、パーソナライズされたマルチオブジェクトのテキスト・ツー・イメージ生成のためのインタラクティブなフレームワークであるLayerComposerを提案する。
提案手法では,(1)層状キャンバス,(2)層状キャンバス,(2)層状キャンバス,(2)層状キャンバス,(2)層状キャンバス,(2)層状キャンバス,(3)層状キャンバス,(3)層状キャンバス,(3)層状キャンバス,(3)層状キャンバス,(3)層状キャンバス,(3)層状キャンバス,(3)層状キャンバス,(3)層状キャンバス,(3)層状キャンバス,(3)層状キャンバス,(3)層状キャンバス,(3)層状キャンバス,(3)層状キャンバス,(2)層状キャンバス,(2)層状キャンバス,(3)層状構造,(2)層状層状構造,(3)構造,および,および,それぞれに適応する。
プロのイメージ編集ソフトウェアと同様に、提案された層状キャンバスでは、直感的な層操作によって入力対象を配置、サイズ変更、ロックすることができる。
我々の汎用的なロック機構は、アーキテクチャ上の変更を必要とせず、代わりに、新しい補完的なデータサンプリング戦略と組み合わせて、固有の位置埋め込みに依存します。
マルチオブジェクトパーソナライズされた画像生成における最先端手法と比較して,LayerComposerは空間制御とアイデンティティ保存に優れることを示した。
関連論文リスト
- PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment [24.964578950380947]
PSDiffusionは、同時多層テキスト・画像生成のための統合拡散フレームワークである。
我々のモデルは、1つのRGB背景と複数のRGBAフォアグラウンドを持つ多層画像を自動的に生成することができる。
本手法では,層状画像を並列かつ協調的に生成するグローバル層対話機構を提案する。
論文 参考訳(メタデータ) (2025-05-16T17:23:35Z) - DreamLayer: Simultaneous Multi-Layer Generation via Diffusion Mode [47.32061459437175]
複数の画像層をコヒーレントなテキスト駆動で生成できるフレームワークであるDreamLayerを紹介する。
透過的なフォアグラウンド層とバックグラウンド層の関係を明示的にモデル化することで、DreamLayerは層間接続を構築する。
実験とユーザスタディにより、DreamLayerはよりコヒーレントで整合したレイヤを生成することが示された。
論文 参考訳(メタデータ) (2025-03-17T05:34:11Z) - ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation [108.69315278353932]
可変多層透明画像の直接生成を容易にするAnonymous Region Transformer(ART)を導入する。
正確な制御とスケーラブルなレイヤ生成を可能にすることで、ARTはインタラクティブなコンテンツ作成のための新しいパラダイムを確立します。
論文 参考訳(メタデータ) (2025-02-25T16:57:04Z) - LayeringDiff: Layered Image Synthesis via Generation, then Disassembly with Generative Knowledge [14.481577976493236]
LayeringDiffは、階層化されたイメージを合成するための新しいパイプラインである。
合成イメージからレイヤを抽出することで、スクラッチから生成するのではなく、大規模なトレーニングの必要性を回避できる。
実効的な層分解のために,前景層と背景層を推定する前に,大規模事前学習型生成法を適用する。
論文 参考訳(メタデータ) (2025-01-02T11:18:25Z) - Generative Image Layer Decomposition with Visual Effects [49.75021036203426]
LayerDecompは、イメージ層分解のための生成フレームワークである。
清潔な背景と、忠実に保存された視覚効果を持つ高品質な透明な前景を作り出す。
本手法は,オブジェクト除去や空間編集作業において,既存の手法よりも優れた分解特性を実現する。
論文 参考訳(メタデータ) (2024-11-26T20:26:49Z) - DesignEdit: Multi-Layered Latent Decomposition and Fusion for Unified & Accurate Image Editing [22.855660721387167]
本研究では,空間認識画像編集タスクを2つのサブタスク,多層ラテント分解と多層ラテント融合の組合せに変換する。
提案手法は,自己ガイドやDiffEditorなど,最新の空間編集手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:35:42Z) - LayerDiff: Exploring Text-guided Multi-layered Composable Image Synthesis via Layer-Collaborative Diffusion Model [70.14953942532621]
層共同拡散モデルであるLayerDiffは、テキスト誘導、多層化、構成可能な画像合成のために設計されている。
本モデルでは,従来の全画像生成手法に匹敵する性能で,高品質な多層画像を生成することができる。
LayerDiffは、レイヤ固有の画像編集やスタイル転送など、幅広いコントロール可能な生成アプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-03-18T16:28:28Z) - TSIT: A Simple and Versatile Framework for Image-to-Image Translation [103.92203013154403]
画像間翻訳のためのシンプルで多用途なフレームワークを提案する。
新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。
これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。
体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
論文 参考訳(メタデータ) (2020-07-23T15:34:06Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。