論文の概要: Insert In Style: A Zero-Shot Generative Framework for Harmonious Cross-Domain Object Composition
- arxiv url: http://arxiv.org/abs/2511.15197v1
- Date: Wed, 19 Nov 2025 07:33:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.685654
- Title: Insert In Style: A Zero-Shot Generative Framework for Harmonious Cross-Domain Object Composition
- Title(参考訳): Insert In Style:高調なクロスドメインオブジェクト合成のためのゼロショット生成フレームワーク
- Authors: Raghu Vamsi Chittersu, Yuvraj Singh Rathore, Pranav Adlinge, Kunal Swami,
- Abstract要約: Insert In Styleは、実用的かつ高忠実な最初のゼロショット生成フレームワークである。
当社のコアコントリビューションは、アイデンティティ、スタイル、コンポジションの表現をアンタングルする新しいマルチステージトレーニングプロトコル(i)、生成時にこのアンタングルを外科的に強制する特殊なマスク付きアテンションアーキテクチャ(ii)の2つの重要な革新を伴う統合されたフレームワークです。
- 参考スコア(独自算出の注目度): 1.6007539256838828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reference-based object composition methods fail when inserting real-world objects into stylized domains. This under-explored problem is currently split between practical "blenders" that lack generative fidelity and "generators" that require impractical, per-subject online finetuning. In this work, we introduce Insert In Style, the first zero-shot generative framework that is both practical and high-fidelity. Our core contribution is a unified framework with two key innovations: (i) a novel multi-stage training protocol that disentangles representations for identity, style, and composition, and (ii) a specialized masked-attention architecture that surgically enforces this disentanglement during generation. This approach prevents the concept interference common in general-purpose, unified-attention models. Our framework is trained on a new 100k sample dataset, curated from a novel data pipeline. This pipeline couples large-scale generation with a rigorous, two-stage filtering process to ensure both high-fidelity semantic identity and style coherence. Unlike prior work, our model is truly zero-shot and requires no text prompts. We also introduce a new public benchmark for stylized composition. We demonstrate state-of-the-art performance, significantly outperforming existing methods on both identity and style metrics, a result strongly corroborated by user studies.
- Abstract(参考訳): 参照ベースのオブジェクト合成メソッドは、現実世界のオブジェクトをスタイル化されたドメインに挿入する際に失敗する。
この未調査の問題は、現在、生成的忠実性に欠ける実践的な「ベンダー」と、非現実的で、サブジェクトごとのオンライン微調整を必要とする「ジェネレータ」に分けられている。
Insert In Styleは,実用的かつ高忠実な最初のゼロショット生成フレームワークである。
私たちのコアコントリビューションは,2つの重要なイノベーションを持った統合フレームワークです。
一 アイデンティティ、スタイル、構成の表現を混乱させる新しい多段階訓練プロトコル、及び
(二)代々この乱れを外科的に強制する特殊仮面建築。
このアプローチは、汎用的、統一的アテンションモデルで共通する概念的干渉を防ぐ。
我々のフレームワークは、新しいデータパイプラインからキュレートされた新しい100kサンプルデータセットに基づいて訓練されている。
このパイプラインは、高忠実なセマンティックアイデンティティとスタイルコヒーレンスの両方を保証するために、厳密な2段階のフィルタリングプロセスと大規模な生成を結合する。
以前の作業とは異なり、我々のモデルは真にゼロショットであり、テキストプロンプトを必要としない。
また、スタイル化された構成のための新しい公開ベンチマークも導入する。
ユーザ研究によって強く裏付けられた、アイデンティティとスタイルのメトリクスに関する既存の手法よりもはるかに優れた、最先端のパフォーマンスを実証する。
関連論文リスト
- Divide, Conquer and Unite: Hierarchical Style-Recalibrated Prototype Alignment for Federated Medical Image Segmentation [66.82598255715696]
フェデレートラーニング(Federated Learning)は、複数の医療機関がデータを共有することなく、グローバルなモデルをトレーニングすることを可能にする。
現在のアプローチは主に、重要なマルチレベルキューを見下ろす最終層機能に重点を置いている。
我々は,ドメイン不変のコンテキスト型プロトタイプアライメントを介して特徴表現ギャップをブリッジするFedBCSを提案する。
論文 参考訳(メタデータ) (2025-11-14T04:15:34Z) - Self-Enhanced Image Clustering with Cross-Modal Semantic Consistency [57.961869351897384]
効率的な画像クラスタリングのためのクロスモーダルなセマンティック一貫性に基づくフレームワークを提案する。
当社のフレームワークはまず,クロスモーダルセマンティック一貫性を通じて,強力な基盤を構築します。
最初の段階では、トレーニング済みモデルのリッチなセマンティクスに合わせて、軽量クラスタリングヘッドをトレーニングします。
第2段階では、自己強化微調整戦略を導入する。
論文 参考訳(メタデータ) (2025-08-02T08:12:57Z) - Local Prompt Adaptation for Style-Consistent Multi-Object Generation in Diffusion Models [0.0]
Local Prompt Adaptation (LPA) は、プロンプトをコンテンツやスタイルトークンに注入する、軽量でトレーニング不要な手法である。
T2Iベンチマークでは、LPAはバニラSDXLのCLIP-promptアライメントを+0.41%、SD1.5の+0.34%改善し、多様性を損なわない。
カスタムの50プロンプトスタイルリッチベンチマークでは、LPAは+0.09%のCLIPプロンプトと+0.08%のCLIPスタイルのゲインを達成した。
論文 参考訳(メタデータ) (2025-07-27T01:32:13Z) - RecGPT: A Foundation Model for Sequential Recommendation [16.464972558861497]
我々は、真にゼロショットの一般化機能を実現するための逐次レコメンデーションのための基礎モデルを開発する。
提案手法は,テキスト機能のみからアイテム表現を導出することで,既存のIDベースの手法から逸脱する。
我々は、不均一なテキスト記述を標準化された離散トークンに変換するFinite Scalar Quantizationと統合されたアイテムトークン化を導入する。
論文 参考訳(メタデータ) (2025-06-06T17:53:02Z) - EAGER: Two-Stream Generative Recommender with Behavior-Semantic Collaboration [63.112790050749695]
本稿では,行動情報と意味情報の両方をシームレスに統合する新しい生成推薦フレームワークであるEAGERを紹介する。
EAGERの有効性を4つの公開ベンチマークで検証し,既存手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-20T06:21:56Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - Generalized One-shot Domain Adaption of Generative Adversarial Networks [72.84435077616135]
GAN(Generative Adversarial Network)の適応は、事前訓練されたGANを、限られたトレーニングデータを持つ特定のドメインに転送することを目的としている。
我々は、ソースドメインからターゲットドメインへの適応を、テクスチャや色といったグローバルなスタイルの移行と、ソースドメインに属さない新しいエンティティの出現の2つの部分に分離できると考えている。
我々の中核的な目的は、参照と合成の内部分布のギャップをワッサーシュタイン距離によって制限することである。
論文 参考訳(メタデータ) (2022-09-08T09:24:44Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。