論文の概要: UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning
- arxiv url: http://arxiv.org/abs/2306.00813v1
- Date: Thu, 1 Jun 2023 15:39:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 14:55:19.541821
- Title: UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning
- Title(参考訳): unidiff: 生成的および識別的学習による視覚言語モデルの進歩
- Authors: Xiao Dong, Runhui Huang, Xiaoyong Wei, Zequn Jie, Jianxing Yu, Jian
Yin, Xiaodan Liang
- Abstract要約: 本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
- 参考スコア(独自算出の注目度): 86.91893533388628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language pre-training have enabled machines to
perform better in multimodal object discrimination (e.g., image-text semantic
alignment) and image synthesis (e.g., text-to-image generation). On the other
hand, fine-tuning pre-trained models with discriminative or generative
capabilities such as CLIP and Stable Diffusion on domain-specific datasets has
shown to be effective in various tasks by adapting to specific domains.
However, few studies have explored the possibility of learning both
discriminative and generative capabilities and leveraging their synergistic
effects to create a powerful and personalized multimodal model during
fine-tuning. This paper presents UniDiff, a unified multi-modal model that
integrates image-text contrastive learning (ITC), text-conditioned image
synthesis learning (IS), and reciprocal semantic consistency modeling (RSC).
UniDiff effectively learns aligned semantics and mitigates the issue of
semantic collapse during fine-tuning on small datasets by leveraging RSC on
visual features from CLIP and diffusion models, without altering the
pre-trained model's basic architecture. UniDiff demonstrates versatility in
both multi-modal understanding and generative tasks. Experimental results on
three datasets (Fashion-man, Fashion-woman, and E-commercial Product) showcase
substantial enhancements in vision-language retrieval and text-to-image
generation, illustrating the advantages of combining discriminative and
generative fine-tuning. The proposed UniDiff model establishes a robust
pipeline for personalized modeling and serves as a benchmark for future
comparisons in the field.
- Abstract(参考訳): 視覚言語プレトレーニングの最近の進歩により、マシンはマルチモーダルオブジェクトの識別(例えば、画像-テキストのセマンティクスアライメント)と画像合成(例えば、テキスト-画像生成)において、よりよいパフォーマンスを実現している。
一方、CLIPやStable Diffusionなどの識別・生成機能を備えた微調整事前学習モデルでは、特定のドメインに適応することで、さまざまなタスクに有効であることが示されている。
しかし、識別能力と生成能力の両方を学習し、それらの相乗効果を利用して、微調整中に強力でパーソナライズされたマルチモーダルモデルを作成する可能性についての研究はほとんどない。
本稿では,画像テキストコントラスト学習(itc),テキスト条件付き画像合成学習(is),相互意味的一貫性モデリング(rsc)を統合した統一マルチモーダルモデルであるunidiffを提案する。
UniDiffは、CLIPと拡散モデルの視覚的特徴にRCCを活用することで、調整済みのセマンティクスを効果的に学習し、小さなデータセットの微調整中にセマンティクス崩壊の問題を緩和する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
Fashion-man, Fashion-woman, E-commercial Productの3つのデータセットによる実験結果から, 視覚言語検索とテキスト・ツー・イメージ生成の大幅な向上がみられた。
提案するunidiffモデルは、パーソナライズドモデリングのためのロバストなパイプラインを確立し、この分野における将来の比較のためのベンチマークとして機能する。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - OneDiff: A Generalist Model for Image Difference Captioning [5.71214984158106]
画像差分キャプション(IDC)は、近縁な画像間の変化を正確に記述するために重要である。
OneDiffは、堅牢な視覚言語モデルアーキテクチャを利用する新しいジェネラリストアプローチである。
OneDiffは、既存の最先端モデルを精度と適応性で一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-08T06:14:37Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Can Generative Models Improve Self-Supervised Representation Learning? [0.7999703756441756]
本稿では、生成モデルを利用して意味論的に一貫した画像拡張を生成することによって、自己指導型学習パラダイムを充実させる新しいフレームワークを提案する。
その結果,下流タスクにおいて,学習した視覚表現の精度を最大10%向上させることができた。
論文 参考訳(メタデータ) (2024-03-09T17:17:07Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。