論文の概要: Self-Supervised Multimodal Learning: A Survey
- arxiv url: http://arxiv.org/abs/2304.01008v1
- Date: Fri, 31 Mar 2023 16:11:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 15:02:49.604908
- Title: Self-Supervised Multimodal Learning: A Survey
- Title(参考訳): 自己教師付きマルチモーダル学習:調査
- Authors: Yongshuo Zong, Oisin Mac Aodha, Timothy Hospedales
- Abstract要約: 我々は,自己教師型マルチモーダル学習における最先端の総合的なレビューを行う。
これらの軸は、自己教師付き学習法とマルチモーダルデータの性質に対応する。
我々は、下流のマルチモーダルアプリケーションタスクをレビューし、最先端の画像テキストモデルとマルチモーダルビデオモデルの具体的な性能を報告する。
- 参考スコア(独自算出の注目度): 10.134639792276847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning, which aims to understand and analyze information from
multiple modalities, has achieved substantial progress in the supervised regime
in recent years. However, the heavy dependence on data paired with expensive
human annotations impedes scaling up models. Meanwhile, given the availability
of large-scale unannotated data in the wild, self-supervised learning has
become an attractive strategy to alleviate the annotation bottleneck. Building
on these two directions, self-supervised multimodal learning (SSML) provides
ways to leverage supervision from raw multimodal data. In this survey, we
provide a comprehensive review of the state-of-the-art in SSML, which we
categorize along three orthogonal axes: objective functions, data alignment,
and model architectures. These axes correspond to the inherent characteristics
of self-supervised learning methods and multimodal data. Specifically, we
classify training objectives into instance discrimination, clustering, and
masked prediction categories. We also discuss multimodal input data pairing and
alignment strategies during training. Finally, we review model architectures
including the design of encoders, fusion modules, and decoders, which are
essential components of SSML methods. We review downstream multimodal
application tasks, reporting the concrete performance of the state-of-the-art
image-text models and multimodal video models, and also review real-world
applications of SSML algorithms in diverse fields such as healthcare, remote
sensing, and machine translation. Finally, we discuss challenges and future
directions for SSML. A collection of related resources can be found at:
https://github.com/ys-zong/awesome-self-supervised-multimodal-learning.
- Abstract(参考訳): マルチモーダル学習は、複数のモーダルからの情報を理解し分析することを目的としており、近年、監督体制において大きな進歩を遂げている。
しかし、高価な人間のアノテーションと組み合わせたデータへの強い依存は、モデルのスケールアップを妨げる。
一方,大規模無記名データの利用状況を考えると,自己教師あり学習は,アノテーションのボトルネックを緩和するための魅力的な戦略となっている。
これら2つの方向に基づいて、自己教師付きマルチモーダル学習(SSML)は、生のマルチモーダルデータから管理を活用する方法を提供する。
本稿では,目的関数,データアライメント,モデルアーキテクチャという3つの直交軸に沿って分類した,ssmlの最先端技術に関する総合的なレビューを行う。
これらの軸は、自己教師付き学習法とマルチモーダルデータの性質に対応する。
具体的には、トレーニング対象をインスタンス識別、クラスタリング、マスク付き予測カテゴリに分類する。
また、トレーニング中のマルチモーダル入力データペアリングとアライメント戦略についても論じる。
最後に,SSML法の基本コンポーネントであるエンコーダ,融合モジュール,デコーダの設計を含むモデルアーキテクチャについて検討する。
我々は、下流のマルチモーダルアプリケーションタスクをレビューし、最先端の画像テキストモデルとマルチモーダルビデオモデルの具体的な性能を報告し、医療、リモートセンシング、機械翻訳などの様々な分野におけるSSMLアルゴリズムの実際の応用をレビューする。
最後に,SSMLの課題と今後の方向性について論じる。
関連リソースのコレクションは、https://github.com/ys-zong/awesome-self-supervised-multimodal-learningにある。
関連論文リスト
- Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。
本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。
以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Shared and Private Information Learning in Multimodal Sentiment Analysis with Deep Modal Alignment and Self-supervised Multi-Task Learning [8.868945335907867]
本稿では、モーダル間の共有情報を取得するための深いモーダル共有情報学習モジュールを提案する。
また、自己教師付き学習戦略に基づくラベル生成モジュールを使用して、モダリティのプライベート情報をキャプチャする。
当社のアプローチは,3つの公開データセットの指標のほとんどにおいて,最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-15T09:24:48Z) - Beyond Just Vision: A Review on Self-Supervised Representation Learning
on Multimodal and Temporal Data [10.006890915441987]
自己教師型学習の普及は、従来のモデルがトレーニングに大量の十分な注釈付きデータを必要とするという事実によって引き起こされる。
モデルの差別的事前学習を通じて、訓練データの効率を向上させるための自己指導手法が導入された。
我々は,時間的データに対するマルチモーダルな自己教師型学習手法の総合的なレビューを初めて提供することを目的とする。
論文 参考訳(メタデータ) (2022-06-06T04:59:44Z) - Learning Modality-Specific Representations with Self-Supervised
Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。
我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。
提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-02-09T14:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。