論文の概要: Beyond Just Vision: A Review on Self-Supervised Representation Learning
on Multimodal and Temporal Data
- arxiv url: http://arxiv.org/abs/2206.02353v2
- Date: Wed, 8 Jun 2022 03:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 09:34:00.134296
- Title: Beyond Just Vision: A Review on Self-Supervised Representation Learning
on Multimodal and Temporal Data
- Title(参考訳): Beyond Just Vision: マルチモーダルデータとテンポラルデータによる自己監督型表現学習のレビュー
- Authors: Shohreh Deldari, Hao Xue, Aaqib Saeed, Jiayuan He, Daniel V. Smith,
Flora D. Salim
- Abstract要約: 自己教師型学習の普及は、従来のモデルがトレーニングに大量の十分な注釈付きデータを必要とするという事実によって引き起こされる。
モデルの差別的事前学習を通じて、訓練データの効率を向上させるための自己指導手法が導入された。
我々は,時間的データに対するマルチモーダルな自己教師型学習手法の総合的なレビューを初めて提供することを目的とする。
- 参考スコア(独自算出の注目度): 10.006890915441987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Self-Supervised Representation Learning (SSRL) has attracted much
attention in the field of computer vision, speech, natural language processing
(NLP), and recently, with other types of modalities, including time series from
sensors. The popularity of self-supervised learning is driven by the fact that
traditional models typically require a huge amount of well-annotated data for
training. Acquiring annotated data can be a difficult and costly process.
Self-supervised methods have been introduced to improve the efficiency of
training data through discriminative pre-training of models using supervisory
signals that have been freely obtained from the raw data. Unlike existing
reviews of SSRL that have pre-dominately focused upon methods in the fields of
CV or NLP for a single modality, we aim to provide the first comprehensive
review of multimodal self-supervised learning methods for temporal data. To
this end, we 1) provide a comprehensive categorization of existing SSRL
methods, 2) introduce a generic pipeline by defining the key components of a
SSRL framework, 3) compare existing models in terms of their objective
function, network architecture and potential applications, and 4) review
existing multimodal techniques in each category and various modalities.
Finally, we present existing weaknesses and future opportunities. We believe
our work develops a perspective on the requirements of SSRL in domains that
utilise multimodal and/or temporal data
- Abstract(参考訳): 近年,SSRL(Self-Supervised Representation Learning)がコンピュータビジョン,音声,自然言語処理(NLP)の分野に注目され,最近ではセンサからの時系列を含む他の種類のモダリティも注目されている。
自己教師付き学習の人気は、従来のモデルがトレーニングに大量の注釈付きデータを必要とするという事実に起因している。
注釈付きデータの取得は困難でコストのかかるプロセスである。
生データから自由に得られる監視信号を用いて,モデルの識別事前学習により,訓練データの効率を向上させるための自己指導手法が導入された。
CV や NLP の分野における単一モダリティの手法を優先的に重視した既存の SSRL のレビューとは違って,時間的データに対するマルチモーダル自己教師型学習手法の総合的なレビューを初めて提供する。
この目的のためには
1)既存のSSRL法を包括的に分類する。
2) SSRLフレームワークのキーコンポーネントを定義することで、ジェネリックパイプラインを導入する。
3) 対象機能,ネットワークアーキテクチャ,潜在的なアプリケーションの観点から既存のモデルを比較し,
4)各カテゴリの既存マルチモーダル技法と様々なモダリティについて検討する。
最後に、既存の弱点と将来の機会を紹介します。
我々は、マルチモーダルデータおよび/または時間データを利用する領域におけるSSRLの要件を考察する。
関連論文リスト
- An Information Criterion for Controlled Disentanglement of Multimodal Data [39.601584166020274]
マルチモーダル表現学習は、複数のモーダルに固有の情報を関連付けて分解しようとする。
Disentangled Self-Supervised Learning (DisentangledSSL)は、非角表現を学習するための新しい自己教師型アプローチである。
論文 参考訳(メタデータ) (2024-10-31T14:57:31Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。
本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。
以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。
モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。
本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文 参考訳(メタデータ) (2024-08-26T17:59:01Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - Reinforcement Learning Based Multi-modal Feature Fusion Network for
Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。
また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。
我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文 参考訳(メタデータ) (2023-08-26T07:55:32Z) - CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - Ex-Model: Continual Learning from a Stream of Trained Models [12.27992745065497]
連続的な学習システムは、訓練されたモデルの形式で圧縮された情報の可用性を活用するべきであると論じる。
エージェントが生データの代わりに以前に訓練されたモデルのシーケンスから学習する「Ex-Model Continual Learning」(Ex-Model Continual Learning)という新しいパラダイムを導入し、形式化する。
論文 参考訳(メタデータ) (2021-12-13T09:46:16Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - A Survey on Self-supervised Pre-training for Sequential Transfer
Learning in Neural Networks [1.1802674324027231]
移動学習のための自己教師付き事前学習は、ラベルのないデータを用いて最先端の結果を改善する技術として、ますます人気が高まっている。
本稿では,自己指導型学習と伝達学習の分類学の概要を述べるとともに,各領域にまたがる事前学習タスクを設計するためのいくつかの顕著な手法を強調した。
論文 参考訳(メタデータ) (2020-07-01T22:55:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。