論文の概要: UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks
- arxiv url: http://arxiv.org/abs/2306.04715v1
- Date: Wed, 7 Jun 2023 18:26:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 18:02:08.618923
- Title: UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks
- Title(参考訳): UniBoost: ゼロショットビジョンランゲージタスクの強化のための教師なしユニモーダル事前トレーニング
- Authors: Yanan Sun and Zihan Zhong and Qi Fan and Chi-Keung Tang and Yu-Wing
Tai
- Abstract要約: 大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 60.46473247205654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale joint training of multimodal models, e.g., CLIP, have
demonstrated great performance in many vision-language tasks. However,
image-text pairs for pre-training are restricted to the intersection of images
and texts, limiting their ability to cover a large distribution of real-world
data, where noise can also be introduced as misaligned pairs during
pre-processing. Conversely, unimodal models trained on text or image data alone
through unsupervised techniques can achieve broader coverage of diverse
real-world data and are not constrained by the requirement of simultaneous
presence of image and text. In this paper, we demonstrate that using
large-scale unsupervised unimodal models as pre-training can enhance the
zero-shot performance of image-text pair models. Our thorough studies validate
that models pre-trained as such can learn rich representations of both
modalities, improving their ability to understand how images and text relate to
each other. Our experiments show that unimodal pre-training outperforms
state-of-the-art CLIP-based models by 6.5% (52.3% $\rightarrow$ 58.8%) on
PASCAL-5$^i$ and 6.2% (27.2% $\rightarrow$ 33.4%) on COCO-20$^i$ semantic
segmentation under zero-shot setting respectively. By learning representations
of both modalities, unimodal pre-training offers broader coverage, reduced
misalignment errors, and the ability to capture more complex features and
patterns in the real-world data resulting in better performance especially for
zero-shot vision-language tasks.
- Abstract(参考訳): マルチモーダルモデルの大規模共同訓練(例えばCLIP)は多くの視覚言語タスクにおいて優れた性能を示した。
しかし、事前学習のための画像テキストペアは画像とテキストの交点に限定されており、実際のデータの大規模な分布をカバーする能力は制限されている。
逆に、教師なしの手法でテキストや画像データだけで訓練されたユニモーダルモデルは、多様な実世界のデータの広範なカバレッジを達成でき、画像とテキストの同時存在を要求されない。
本稿では,事前学習として大規模非教師なしユニモーダルモデルを用いることにより,画像テキストペアモデルのゼロショット性能を向上させることを実証する。
我々の徹底的な研究は、事前訓練されたモデルが両方のモダリティの豊かな表現を学習し、画像とテキストが相互にどのように関連しているかを理解する能力を向上させることを検証する。
実験の結果, PASCAL-5$^i$と6.2%(27.2%$\rightarrow$ 33.4%)で, COCO-20$^i$セマンティックセマンティックセグメンテーションでそれぞれ6.5%(52.3%$\rightarrow$58.8%)を達成できた。
両方のモダリティの表現を学習することで、ユニモーダル事前学習はより広範なカバレッジを提供し、修正ミスを減らし、現実世界のデータにおけるより複雑な特徴やパターンをキャプチャし、特にゼロショットビジョン言語タスクのパフォーマンスを向上させることができる。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Transferring Pre-trained Multimodal Representations with Cross-modal
Similarity Matching [49.730741713652435]
本論文では,大規模な事前学習型マルチモーダルモデルの表現を,小さなターゲットモデルに効果的に転送する手法を提案する。
教師なしトランスファーでは,教師モデルの表現を学習できるクロスモーダル類似性マッチング(CSM)を導入する。
テキストプロンプトをよりよくエンコードするために、入力テキストプロンプトの語彙的曖昧さを軽減するコンテキストベースのプロンプト拡張(CPA)を設計する。
論文 参考訳(メタデータ) (2023-01-07T17:24:11Z) - Prefix Language Models are Unified Modal Learners [30.666873206462295]
そこで本研究では,テキストおよび画像シーケンスに基づいて,プレフィックス言語モデリング目標を用いて,統一モーダルモデルが学習可能であることを示す。
シンプルだが強力な事前トレーニングパラダイムのおかげで、提案されたモデルであるDaVinciは、トレーニングが簡単で、巨大なデータにスケーラブルで、さまざまなダウンストリームタスクに適応できます。
論文 参考訳(メタデータ) (2022-06-15T17:49:38Z) - Unsupervised Vision-and-Language Pre-training via Retrieval-based
Multi-Granular Alignment [66.77841319057299]
非並列テキストと画像のための教師なしビジョン・アンド・ランゲージ事前学習カリキュラムを提案する。
まず、検索に基づく手法を用いて、弱整列画像テキストコーパスを構築し、次に、複数粒状アライメントの事前学習タスクを適用する。
包括的なアブレーション研究は、それぞれの粒度がより強力な事前学習モデルを学ぶのに役立つことを示している。
論文 参考訳(メタデータ) (2022-03-01T05:34:01Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。