論文の概要: Consistent Subject Generation via Contrastive Instantiated Concepts
- arxiv url: http://arxiv.org/abs/2503.24387v1
- Date: Mon, 31 Mar 2025 17:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.563648
- Title: Consistent Subject Generation via Contrastive Instantiated Concepts
- Title(参考訳): コントラスト的Instantiated Conceptによる一貫性のある主題生成
- Authors: Lee Hsin-Ying, Kelvin C. K. Chan, Ming-Hsuan Yang,
- Abstract要約: コントラッシブ・コンセプト・インスティファイション(CoCoIns)を導入し,複数の独立した生成物にまたがる一貫性のある主題を効果的に合成する。
このフレームワークは生成モデルとマッピングネットワークで構成されており、入力潜時符号を特定の概念のインスタンスに関連する擬単語に変換する。
- 参考スコア(独自算出の注目度): 59.95616194326261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While text-to-image generative models can synthesize diverse and faithful contents, subject variation across multiple creations limits the application in long content generation. Existing approaches require time-consuming tuning, references for all subjects, or access to other creations. We introduce Contrastive Concept Instantiation (CoCoIns) to effectively synthesize consistent subjects across multiple independent creations. The framework consists of a generative model and a mapping network, which transforms input latent codes into pseudo-words associated with certain instances of concepts. Users can generate consistent subjects with the same latent codes. To construct such associations, we propose a contrastive learning approach that trains the network to differentiate the combination of prompts and latent codes. Extensive evaluations of human faces with a single subject show that CoCoIns performs comparably to existing methods while maintaining higher flexibility. We also demonstrate the potential of extending CoCoIns to multiple subjects and other object categories.
- Abstract(参考訳): テキストから画像への生成モデルは多様で忠実なコンテンツを合成できるが、複数の生成物にまたがる主題の変化は、長いコンテンツ生成における応用を制限する。
既存のアプローチには、時間を要するチューニング、すべての主題への参照、あるいは他の生成へのアクセスが必要です。
コントラッシブ・コンセプト・インスティファイション(CoCoIns)を導入し,複数の独立した生成物にまたがる一貫性のある主題を効果的に合成する。
このフレームワークは生成モデルとマッピングネットワークで構成されており、入力潜時符号を特定の概念のインスタンスに関連する擬単語に変換する。
ユーザーは同じ遅延コードで一貫した主題を生成することができる。
このような関連性を構築するために,ネットワークにプロンプトと潜時符号の組み合わせを区別するように訓練するコントラスト学習手法を提案する。
一人の被験者による顔の広範囲な評価は、CoCoInsは高い柔軟性を維持しつつ、既存の方法と相容れない性能を示した。
また、CoCoInsを複数の主題や他の対象カテゴリに拡張する可能性を示した。
関連論文リスト
- UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding [84.87802580670579]
離散表現と連続表現の組み合わせによって視覚入力を符号化する自動回帰生成モデルUniTokenを導入する。
我々の統合ビジュアルエンコーディングフレームワークは、多次元情報を提供しながら、高レベルのセマンティクスと低レベルの詳細の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-04-06T09:20:49Z) - DynASyn: Multi-Subject Personalization Enabling Dynamic Action Synthesis [3.6294581578004332]
単一参照画像からの効果的な多目的パーソナライズであるDynASynを提案する。
DynASynは、概念に基づく先行と主題の出現と行動とを整合させることにより、パーソナライズプロセスにおける主題のアイデンティティを保存する。
さらに,アイデンティティの保存と行動多様性のトレードオフを高めるために,概念に基づくプロンプト・アンド・イメージの強化を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:56:35Z) - WeGen: A Unified Model for Interactive Multimodal Generation as We Chat [51.78489661490396]
マルチモーダル生成と理解を統合するモデルWeGenを紹介する。
より詳細な指示を省くために、創造性の高い多様な結果を生成することができる。
様々なビジュアル生成ベンチマークにおいて,最先端性能が達成されていることを示す。
論文 参考訳(メタデータ) (2025-03-03T02:50:07Z) - Walking the Web of Concept-Class Relationships in Incrementally Trained Interpretable Models [25.84386438333865]
概念とクラスは複雑な関係の網を形成しており、それは劣化しやすく、経験を通じて保存および拡張する必要がある。
本研究では,マルチモーダルな概念を用いて,学習可能なパラメータの数を増やすことなく分類を行う新しい手法である MuCIL を提案する。
論文 参考訳(メタデータ) (2025-02-27T18:59:29Z) - Redefining <Creative> in Dictionary: Towards an Enhanced Semantic Understanding of Creative Generation [39.93527514513576]
Creative'' は人間と拡散モデルの両方にとって本質的に抽象的な概念である。
現在の手法は、創造的な効果を達成するために参照プロンプトやイメージに大きく依存している。
CreTokを紹介します。これは、新しいトークンであるtexttCreTok>として、創造性を再定義することで、拡散モデルにメタ創造性をもたらすものです。
コードはhttps://github.com/fu-feng/CreTok.comで公開される。
論文 参考訳(メタデータ) (2024-10-31T17:19:03Z) - Enhancing Graph Contrastive Learning with Reliable and Informative Augmentation for Recommendation [84.45144851024257]
離散コードによるより強力な協調情報を用いて、コントラスト的なビューを構築することにより、グラフのコントラスト学習を強化することを目的とした、新しいフレームワークを提案する。
中心となる考え方は、ユーザとアイテムを協調情報に富んだ離散コードにマッピングし、信頼性と情報に富んだコントラッシブなビュー生成を可能にすることである。
論文 参考訳(メタデータ) (2024-09-09T14:04:17Z) - Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis [14.21719970175159]
コンセプトコンダクタは、マルチコンセプトのカスタマイズにおいて、視覚的忠実さと正確なレイアウトを保証するように設計されている。
本稿では,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。
本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。
論文 参考訳(メタデータ) (2024-08-07T08:43:58Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [59.00909718832648]
マルチコンセプトカスタマイズのための新しいアプローチであるMC$2$を提案する。
視覚的およびテキスト的トークン間の注意重みを適応的に補正することにより、画像領域が関連概念と正確に一致することを保証する。
MC$2$は、即時参照アライメントの観点からトレーニングベースの手法より優れていることを示す実験である。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - ConceptLab: Creative Concept Generation using VLM-Guided Diffusion Prior
Constraints [56.824187892204314]
我々は創造的なテキスト・画像生成の課題を提示し、幅広いカテゴリの新しいメンバーを創り出そうとする。
本稿では, 先行拡散の出力空間上での最適化プロセスとして, 創造的生成問題を定式化できることを示す。
我々は、最適化問題に新たな制約を適応的に付加する質問応答型視覚言語モデル(VLM)を導入し、よりユニークな生成物を発見するようモデルに促す。
論文 参考訳(メタデータ) (2023-08-03T17:04:41Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。