論文の概要: A Multi-view Perspective of Self-supervised Learning
- arxiv url: http://arxiv.org/abs/2003.00877v2
- Date: Fri, 15 May 2020 04:20:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 18:44:48.663558
- Title: A Multi-view Perspective of Self-supervised Learning
- Title(参考訳): 自己指導型学習の多視点的展望
- Authors: Chuanxing Geng, Zhenghao Tan, Songcan Chen
- Abstract要約: 自己教師付き学習(SSL)は最近広く注目を集めており、通常は手動によるデータアノテーションを使わずにプレテキストタスクを導入している。
本稿では、一般的なプレテキストタスクのクラスをビューデータ拡張(VDA)とビューラベル分類(VLC)の組み合わせに分離するために、マルチビューの視点を借りる。
具体的には、単純なマルチビュー学習フレームワークを特別に設計し(SSL-MV)、拡張ビュー上の同じタスクを通して下流タスク(元ビュー)の機能学習を支援する。
- 参考スコア(独自算出の注目度): 24.14738533504335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a newly emerging unsupervised learning paradigm, self-supervised learning
(SSL) recently gained widespread attention, which usually introduces a pretext
task without manual annotation of data. With its help, SSL effectively learns
the feature representation beneficial for downstream tasks. Thus the pretext
task plays a key role. However, the study of its design, especially its essence
currently is still open. In this paper, we borrow a multi-view perspective to
decouple a class of popular pretext tasks into a combination of view data
augmentation (VDA) and view label classification (VLC), where we attempt to
explore the essence of such pretext task while providing some insights into its
design. Specifically, a simple multi-view learning framework is specially
designed (SSL-MV), which assists the feature learning of downstream tasks
(original view) through the same tasks on the augmented views. SSL-MV focuses
on VDA while abandons VLC, empirically uncovering that it is VDA rather than
generally considered VLC that dominates the performance of such SSL.
Additionally, thanks to replacing VLC with VDA tasks, SSL-MV also enables an
integrated inference combining the predictions from the augmented views,
further improving the performance. Experiments on several benchmark datasets
demonstrate its advantages.
- Abstract(参考訳): 新たな非教師付き学習パラダイムとして、セルフ教師付き学習(SSL)が近年注目を集めており、通常は手動によるデータアノテーションを使わずにプリテキストタスクを導入している。
その助けによりSSLは、下流タスクに有益な機能表現を効果的に学習する。
したがって、プリテキストタスクが重要な役割を果たす。
しかし、その設計、特に現在の本質の研究は依然としてオープンである。
本稿では、一般的なプレテキストタスクのクラスをビューデータ拡張(VDA)とビューラベル分類(VLC)の組み合わせに分離するために、マルチビューの視点を借りて、そのようなプレテキストタスクの本質を探求し、その設計についていくつかの洞察を提供しながら検討する。
具体的には、単純なマルチビュー学習フレームワークを特別に設計し(SSL-MV)、拡張ビュー上の同じタスクを通して下流タスク(元ビュー)の機能学習を支援する。
SSL-MV は VLC を放棄しながら VDA に焦点を当てており、SSL のパフォーマンスを左右する VLC ではなく VDA であることを実証的に明らかにしている。
さらに、VLCをVDAタスクに置き換えることで、SSL-MVは、拡張ビューからの予測を組み合わせた統合推論を可能にし、パフォーマンスをさらに向上する。
いくつかのベンチマークデータセットの実験は、その利点を示している。
関連論文リスト
- Making Large Vision Language Models to be Good Few-shot Learners [11.204701216476815]
FSC(Few-shot Classification)は、コンピュータビジョンにおける基本的な課題である。
LVLMは、サポートデータから有用な情報を効果的に抽出するのではなく、特定の応答形式を学習するリスクを負う。
本稿では,FSCにおけるLVLMの性能について検討し,学習不足や重度の位置バイアスの有無などの重要な問題を明らかにする。
論文 参考訳(メタデータ) (2024-08-21T03:01:11Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - Uncovering the Hidden Dynamics of Video Self-supervised Learning under
Distribution Shifts [39.080610060557476]
本研究では, 自然分布変化に対応した6種類の自己監督手法(v-SimCLR, v-MoCo, v-BYOL, v-SimSiam, v-DINO, v-MAE)の挙動について検討した。
本研究は,VSSL手法の興味深い発見と興味深い挙動を明らかにするものである。
論文 参考訳(メタデータ) (2023-06-03T06:10:20Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - A Survey on Masked Autoencoder for Self-supervised Learning in Vision
and Beyond [64.85076239939336]
視覚における自己教師付き学習(SSL)は、NLPと同様の軌道をとる可能性がある。
マスク付き予測(例えばBERT)による生成前文タスクは、NLPにおけるデファクトスタンダードSSLプラクティスとなっている。
マスク画像モデリングの成功により、マスキングオートエンコーダが復活した。
論文 参考訳(メタデータ) (2022-07-30T09:59:28Z) - Exploit Clues from Views: Self-Supervised and Regularized Learning for
Multiview Object Recognition [66.87417785210772]
本研究では,マルチビュー自己教師型学習(MV-SSL)の問題点について検討する。
対象不変」表現を追求し,自己指導型学習のための新しい代理課題を提案する。
実験の結果,ビュー不変プロトタイプ埋め込み(VISPE)による認識と検索は,他の自己教師あり学習方法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-28T07:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。