論文の概要: CustomContrast: A Multilevel Contrastive Perspective For Subject-Driven Text-to-Image Customization
- arxiv url: http://arxiv.org/abs/2409.05606v1
- Date: Mon, 9 Sep 2024 13:39:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 14:39:56.552657
- Title: CustomContrast: A Multilevel Contrastive Perspective For Subject-Driven Text-to-Image Customization
- Title(参考訳): CustomContrast: 主観駆動型テキスト・画像のカスタマイズのためのマルチレベルコントラスト的視点
- Authors: Nan Chen, Mengqi Huang, Zhuowei Chen, Yang Zheng, Lei Zhang, Zhendong Mao,
- Abstract要約: 理想的な主観的表現は、相互差分的な視点、すなわち、主観的本質的属性と無関係な属性とを対照的な学習を通して分離することで達成できると主張する。
具体的には、マルチレベルコントラスト学習パラダイムとMFI(Multimodal Feature Injection)を含む新しいフレームワークであるCustomContrastを提案する。
広範囲な実験は、主題の類似性とテキスト制御性におけるCustomContrastの有効性を示している。
- 参考スコア(独自算出の注目度): 27.114395240088562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subject-driven text-to-image (T2I) customization has drawn significant interest in academia and industry. This task enables pre-trained models to generate novel images based on unique subjects. Existing studies adopt a self-reconstructive perspective, focusing on capturing all details of a single image, which will misconstrue the specific image's irrelevant attributes (e.g., view, pose, and background) as the subject intrinsic attributes. This misconstruction leads to both overfitting or underfitting of irrelevant and intrinsic attributes of the subject, i.e., these attributes are over-represented or under-represented simultaneously, causing a trade-off between similarity and controllability. In this study, we argue an ideal subject representation can be achieved by a cross-differential perspective, i.e., decoupling subject intrinsic attributes from irrelevant attributes via contrastive learning, which allows the model to focus more on intrinsic attributes through intra-consistency (features of the same subject are spatially closer) and inter-distinctiveness (features of different subjects have distinguished differences). Specifically, we propose CustomContrast, a novel framework, which includes a Multilevel Contrastive Learning (MCL) paradigm and a Multimodal Feature Injection (MFI) Encoder. The MCL paradigm is used to extract intrinsic features of subjects from high-level semantics to low-level appearance through crossmodal semantic contrastive learning and multiscale appearance contrastive learning. To facilitate contrastive learning, we introduce the MFI encoder to capture cross-modal representations. Extensive experiments show the effectiveness of CustomContrast in subject similarity and text controllability.
- Abstract(参考訳): 対象駆動型テキスト・ツー・イメージ(T2I)のカスタマイズは、学術と産業に大きな関心を寄せている。
このタスクにより、事前訓練されたモデルが、ユニークな主題に基づいて新しい画像を生成することができる。
既存の研究では、特定の画像の無関係な属性(例えば、ビュー、ポーズ、背景など)を本質的な属性として誤解させるような、単一の画像のすべての詳細を捉えることに焦点を当てた自己再構成的な視点が採用されている。
このミスコンストラクションは、対象の無関係な属性や本質的な属性の過度な適合または過度な適合、すなわち、これらの属性が同時に過剰に表現されるか、あるいは過度に表現され、類似性と可制御性の間のトレードオフを引き起こす。
本研究は,対象の内在属性を非関連属性からコントラスト学習を通じて切り離すことによって,対象の内在属性を非関連属性から切り離すことによって,理想的対象表現が達成できる,と論じる。
具体的には、MCL(Multilevel Contrastive Learning)パラダイムとMFI(Multimodal Feature Injection)エンコーダを含む新しいフレームワークであるCustomContrastを提案する。
MCLパラダイムは、クロスモーダルなセマンティック・コントラッシブ・ラーニングとマルチスケールなセマンティック・コントラッシブ・ラーニングを通じて、高レベルのセマンティクスから低レベルの外観に至るまで、被験者の本質的な特徴を抽出するために用いられる。
コントラスト学習を容易にするために,MFIエンコーダを導入する。
広範囲な実験は、主題の類似性とテキスト制御性におけるCustomContrastの有効性を示している。
関連論文リスト
- Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - Training-Free Structured Diffusion Guidance for Compositional
Text-to-Image Synthesis [78.28620571530706]
大規模拡散モデルはテキスト・ツー・イメージ合成(T2I)タスクの最先端の結果を得た。
我々は,T2Iモデルの合成スキル,特により正確な属性結合と画像合成を改善する。
論文 参考訳(メタデータ) (2022-12-09T18:30:24Z) - Matching Multiple Perspectives for Efficient Representation Learning [0.0]
本稿では,自己教師型学習とマルチパースペクティブマッチング技術を組み合わせたアプローチを提案する。
我々は,同一オブジェクトの複数ビューと多種多様な自己教師付き事前学習アルゴリズムを組み合わせることで,オブジェクト分類性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-16T10:33:13Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z) - MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。
MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。
視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文 参考訳(メタデータ) (2020-04-17T11:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。