論文の概要: Consistent Subject Generation via Contrastive Instantiated Concepts
- arxiv url: http://arxiv.org/abs/2503.24387v1
- Date: Mon, 31 Mar 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:34:53.712801
- Title: Consistent Subject Generation via Contrastive Instantiated Concepts
- Title(参考訳): コントラスト的Instantiated Conceptによる一貫性のある主題生成
- Authors: Lee Hsin-Ying, Kelvin C. K. Chan, Ming-Hsuan Yang,
- Abstract要約: コントラッシブ・コンセプト・インスティファイション(CoCoIns)を導入し,複数の独立した生成物にまたがる一貫性のある主題を効果的に合成する。
このフレームワークは生成モデルとマッピングネットワークで構成されており、入力潜時符号を特定の概念のインスタンスに関連する擬単語に変換する。
- 参考スコア(独自算出の注目度): 59.95616194326261
- License:
- Abstract: While text-to-image generative models can synthesize diverse and faithful contents, subject variation across multiple creations limits the application in long content generation. Existing approaches require time-consuming tuning, references for all subjects, or access to other creations. We introduce Contrastive Concept Instantiation (CoCoIns) to effectively synthesize consistent subjects across multiple independent creations. The framework consists of a generative model and a mapping network, which transforms input latent codes into pseudo-words associated with certain instances of concepts. Users can generate consistent subjects with the same latent codes. To construct such associations, we propose a contrastive learning approach that trains the network to differentiate the combination of prompts and latent codes. Extensive evaluations of human faces with a single subject show that CoCoIns performs comparably to existing methods while maintaining higher flexibility. We also demonstrate the potential of extending CoCoIns to multiple subjects and other object categories.
- Abstract(参考訳): テキストから画像への生成モデルは多様で忠実なコンテンツを合成できるが、複数の生成物にまたがる主題の変化は、長いコンテンツ生成における応用を制限する。
既存のアプローチには、時間を要するチューニング、すべての主題への参照、あるいは他の生成へのアクセスが必要です。
コントラッシブ・コンセプト・インスティファイション(CoCoIns)を導入し,複数の独立した生成物にまたがる一貫性のある主題を効果的に合成する。
このフレームワークは生成モデルとマッピングネットワークで構成されており、入力潜時符号を特定の概念のインスタンスに関連する擬単語に変換する。
ユーザーは同じ遅延コードで一貫した主題を生成することができる。
このような関連性を構築するために,ネットワークにプロンプトと潜時符号の組み合わせを区別するように訓練するコントラスト学習手法を提案する。
一人の被験者による顔の広範囲な評価は、CoCoInsは高い柔軟性を維持しつつ、既存の方法と相容れない性能を示した。
また、CoCoInsを複数の主題や他の対象カテゴリに拡張する可能性を示した。
関連論文リスト
- Universal Sparse Autoencoders: Interpretable Cross-Model Concept Alignment [6.614005142754584]
ユニバーサルスパースオートエンコーダ(英: Universal Sparse Autoencoders、USAEs)は、複数のディープニューラルネットワークにまたがる解釈可能な概念を明らかにするためのフレームワークである。
USAEは、複数のモデルの内部アクティベーションを一度に再構築し解釈できる普遍的な概念空間を学ぶ。
論文 参考訳(メタデータ) (2025-02-06T02:06:16Z) - Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation [43.50888291380848]
マルチモーダル理解と生成を統合する自動回帰フレームワークであるJanusを紹介する。
Janusは視覚的エンコーディングを別々の経路に分離し、単一の統一トランスフォーマーアーキテクチャを使って処理する。
実験によると、Janusは以前の統一モデルを超え、タスク固有のモデルのパフォーマンスにマッチするか、超えている。
論文 参考訳(メタデータ) (2024-10-17T17:58:37Z) - Enhancing Graph Contrastive Learning with Reliable and Informative Augmentation for Recommendation [84.45144851024257]
離散コードによるより強力な協調情報を用いて、コントラスト的なビューを構築することにより、グラフのコントラスト学習を強化することを目的とした、新しいフレームワークを提案する。
中心となる考え方は、ユーザとアイテムを協調情報に富んだ離散コードにマッピングし、信頼性と情報に富んだコントラッシブなビュー生成を可能にすることである。
論文 参考訳(メタデータ) (2024-09-09T14:04:17Z) - Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis [14.21719970175159]
コンセプトコンダクタは、マルチコンセプトのカスタマイズにおいて、視覚的忠実さと正確なレイアウトを保証するように設計されている。
本稿では,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。
本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。
論文 参考訳(メタデータ) (2024-08-07T08:43:58Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - ConceptLab: Creative Concept Generation using VLM-Guided Diffusion Prior
Constraints [56.824187892204314]
我々は創造的なテキスト・画像生成の課題を提示し、幅広いカテゴリの新しいメンバーを創り出そうとする。
本稿では, 先行拡散の出力空間上での最適化プロセスとして, 創造的生成問題を定式化できることを示す。
我々は、最適化問題に新たな制約を適応的に付加する質問応答型視覚言語モデル(VLM)を導入し、よりユニークな生成物を発見するようモデルに促す。
論文 参考訳(メタデータ) (2023-08-03T17:04:41Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Multi-Concept Customization of Text-to-Image Diffusion [51.8642043743222]
既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。
テキスト・ツー・イメージ・コンディショニング機構におけるパラメータの最適化は,新しい概念を表現するのに十分強力であることがわかった。
本モデルは,複数の新しい概念のバリエーションを生成し,既存の概念を新しい設定でシームレスに構成する。
論文 参考訳(メタデータ) (2022-12-08T18:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。