論文の概要: Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations
- arxiv url: http://arxiv.org/abs/2405.14239v1
- Date: Thu, 23 May 2024 07:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 18:34:03.166214
- Title: Harmony: A Joint Self-Supervised and Weakly-Supervised Framework for Learning General Purpose Visual Representations
- Title(参考訳): Harmony: 汎用的な視覚表現学習のための自己監督と弱スーパービジョンの共同フレームワーク
- Authors: Mohammed Baharoon, Jonathan Klein, Dominik L. Michels,
- Abstract要約: 本稿では,視覚的特徴を学習するために,視覚言語学習と識別的・生成的自己スーパービジョンを組み合わせたフレームワークであるHarmonyを紹介する。
当社のフレームワークは, ネガティブな例に頼らず, 1対1の対応問題に対処することで, ウェブスクラッドデータに特化して動作するように設計されている。
- 参考スコア(独自算出の注目度): 6.990891188823598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language contrastive learning frameworks like CLIP enable learning representations from natural language supervision, and provide strong zero-shot classification capabilities. However, due to the nature of the supervisory signal in these paradigms, they lack the ability to learn localized features, leading to degraded performance on dense prediction tasks like segmentation and detection. On the other hand, self-supervised learning methods have shown the ability to learn granular representations, complementing the high-level features in vision-language training. In this work, we present Harmony, a framework that combines vision-language training with discriminative and generative self-supervision to learn visual features that can be generalized across vision downstream tasks. Our framework is specifically designed to work on web-scraped data by not relying on negative examples and addressing the one-to-one correspondence issue using soft CLIP targets generated by an EMA model. We comprehensively evaluate Harmony across various vision downstream tasks and find that it significantly outperforms the baseline CLIP and the previously leading joint self and weakly-supervised methods, MaskCLIP and SLIP. Specifically, when comparing against these methods, Harmony shows superior performance in fine-tuning and zero-shot classification on ImageNet-1k, semantic segmentation on ADE20K, and both object detection and instance segmentation on MS-COCO, when pre-training a ViT-S/16 on CC3M. We also show that Harmony outperforms other self-supervised learning methods like iBOT and MAE across all tasks evaluated. On https://github.com/MohammedSB/Harmony our code is publicly available.
- Abstract(参考訳): CLIPのような視覚的なコントラスト学習フレームワークは、自然言語の監視から学習表現を可能にし、強力なゼロショット分類機能を提供する。
しかし、これらのパラダイムの監督信号の性質から、局所的な特徴を学習する能力が欠如し、セグメンテーションや検出といった密集した予測タスクの性能が低下する。
一方、自己指導型学習手法は、視覚言語訓練における高次特徴を補完し、粒度の表現を学習する能力を示した。
本研究では,視覚言語学習と識別的・生成的自己スーパービジョンを組み合わせたフレームワークであるHarmonyを紹介し,視覚下流タスク間で一般化可能な視覚的特徴を学習する。
EMAモデルによって生成されたソフトなCLIPターゲットを用いて、ネガティブな例に頼らず、1対1の対応問題に対処することで、Webスクラッドデータに特化して動作するように設計されている。
本研究では,様々な視線下流タスクのハーモニーを総合的に評価し,ベースラインCLIPと従来指導されていた自己および弱監督手法であるMaskCLIPとSLIPを著しく上回る結果を得た。
具体的には,これらの手法と比較して,ImageNet-1kの微調整とゼロショット分類,ADE20Kのセマンティックセグメンテーション,MS-COCOのオブジェクト検出とインスタンスセグメンテーションにおいて,CC3MのViT-S/16の事前トレーニングにおいて優れた性能を示す。
また、HarmonyはiBOTやMAEなど、評価されたすべてのタスクにおいて、他の自己教師型学習方法よりも優れていることを示す。
https://github.com/MohammedSB/Harmonyでは、私たちのコードが公開されています。
関連論文リスト
- Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Robust Representation Learning by Clustering with Bisimulation Metrics
for Visual Reinforcement Learning with Distractions [9.088460902782547]
Bisimulation Metrics (CBM) によるクラスタリングは、潜在空間における視覚的観察をグループ化することで、堅牢な表現を学習する。
CBMは,(1)実測距離を学習プロトタイプと測定することで観測をグループ化すること,(2)現在のクラスタ割り当てに従ってプロトタイプの集合を学習すること,の2つのステップを交互に行う。
実験により、CBMは一般的なビジュアルRLアルゴリズムのサンプル効率を大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-02-12T13:27:34Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - SLIP: Self-supervision meets Language-Image Pre-training [79.53764315471543]
自己指導型学習が視覚表現学習における言語指導の活用に役立つかどうかを考察する。
自己教師付き学習とCLIP事前学習を組み合わせたマルチタスク学習フレームワークSLIPを紹介する。
SLIPは、自己監督や言語監督よりも優れたパフォーマンスを享受しています。
論文 参考訳(メタデータ) (2021-12-23T18:07:13Z) - Weakly Supervised Contrastive Learning [68.47096022526927]
この問題に対処するために,弱教師付きコントラスト学習フレームワーク(WCL)を導入する。
WCLはResNet50を使用して65%と72%のImageNet Top-1の精度を実現している。
論文 参考訳(メタデータ) (2021-10-10T12:03:52Z) - Mutual Contrastive Learning for Visual Representation Learning [1.9355744690301404]
本稿では,汎用視覚表現学習のための相互コントラスト学習(mcl)と呼ばれる協調学習手法を提案する。
mclの利点により、各モデルは他のモデルからさらに対照的な知識を学べ、より有意義な特徴表現に繋がる。
教師付きおよび自己教師付き画像分類、転送学習および少数ショット学習の実験結果は、mclが一貫したパフォーマンス向上をもたらすことを示している。
論文 参考訳(メタデータ) (2021-04-26T13:32:33Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。