論文の概要: Self-Supervised Multimodal Learning: A Survey
- arxiv url: http://arxiv.org/abs/2304.01008v2
- Date: Fri, 4 Aug 2023 21:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 23:30:56.462242
- Title: Self-Supervised Multimodal Learning: A Survey
- Title(参考訳): 自己教師付きマルチモーダル学習:調査
- Authors: Yongshuo Zong, Oisin Mac Aodha, Timothy Hospedales
- Abstract要約: マルチモーダル学習は、複数のモーダルからの情報を理解し分析することを目的としている。
高価なヒューマンアノテーションと組み合わせたデータへの大きな依存は、モデルのスケールアップを妨げる。
大規模無意味なデータが野生で利用可能であることを考えると、自己教師型学習は、アノテーションボトルネックを軽減するための魅力的な戦略となっている。
- 参考スコア(独自算出の注目度): 10.134639792276847
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning, which aims to understand and analyze information from
multiple modalities, has achieved substantial progress in the supervised regime
in recent years. However, the heavy dependence on data paired with expensive
human annotations impedes scaling up models. Meanwhile, given the availability
of large-scale unannotated data in the wild, self-supervised learning has
become an attractive strategy to alleviate the annotation bottleneck. Building
on these two directions, self-supervised multimodal learning (SSML) provides
ways to learn from raw multimodal data. In this survey, we provide a
comprehensive review of the state-of-the-art in SSML, in which we elucidate
three major challenges intrinsic to self-supervised learning with multimodal
data: (1) learning representations from multimodal data without labels, (2)
fusion of different modalities, and (3) learning with unaligned data. We then
detail existing solutions to these challenges. Specifically, we consider (1)
objectives for learning from multimodal unlabeled data via self-supervision,
(2) model architectures from the perspective of different multimodal fusion
strategies, and (3) pair-free learning strategies for coarse-grained and
fine-grained alignment. We also review real-world applications of SSML
algorithms in diverse fields such as healthcare, remote sensing, and machine
translation. Finally, we discuss challenges and future directions for SSML. A
collection of related resources can be found at:
https://github.com/ys-zong/awesome-self-supervised-multimodal-learning.
- Abstract(参考訳): マルチモーダル学習は、複数のモーダルからの情報を理解し分析することを目的としており、近年、監督体制において大きな進歩を遂げている。
しかし、高価な人間のアノテーションと組み合わせたデータへの強い依存は、モデルのスケールアップを妨げる。
一方,大規模無記名データの利用状況を考えると,自己教師あり学習は,アノテーションのボトルネックを緩和するための魅力的な戦略となっている。
これら2つの方向に基づいて、自己教師付きマルチモーダル学習(SSML)は、生のマルチモーダルデータから学習する方法を提供する。
本研究では,マルチモーダルデータを用いた自己教師あり学習に本質的な3つの課題,(1)ラベルのないマルチモーダルデータからの学習表現,(2)異なるモダリティの融合,(3)不整合データによる学習について,ssmlの最先端を総合的に検討する。
そして、これらの課題に対する既存の解決策を詳述する。
具体的には,(1)自己スーパービジョンによるマルチモーダル非ラベルデータから学習する目的,(2)異なるマルチモーダル融合戦略の観点からのモデルアーキテクチャ,(3)粗粒度および細粒度アライメントのためのペアフリー学習戦略を考える。
また、医療、リモートセンシング、機械翻訳といった様々な分野におけるSSMLアルゴリズムの実際の応用についてもレビューする。
最後に,SSMLの課題と今後の方向性について論じる。
関連リソースのコレクションは、https://github.com/ys-zong/awesome-self-supervised-multimodal-learningにある。
関連論文リスト
- Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Shared and Private Information Learning in Multimodal Sentiment Analysis
with Deep Modal Alignment and Self-supervised Multi-Task Learning [6.523490245080648]
本稿では、モーダル間の共有情報を取得するための深いモーダル共有情報学習モジュールを提案する。
また、自己教師付き学習戦略に基づくラベル生成モジュールを使用して、モダリティのプライベート情報をキャプチャする。
当社のアプローチは,3つの公開データセットの指標のほとんどにおいて,最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-15T09:24:48Z) - Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning
with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。
我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。
一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2023-03-27T07:07:33Z) - Beyond Just Vision: A Review on Self-Supervised Representation Learning
on Multimodal and Temporal Data [10.006890915441987]
自己教師型学習の普及は、従来のモデルがトレーニングに大量の十分な注釈付きデータを必要とするという事実によって引き起こされる。
モデルの差別的事前学習を通じて、訓練データの効率を向上させるための自己指導手法が導入された。
我々は,時間的データに対するマルチモーダルな自己教師型学習手法の総合的なレビューを初めて提供することを目的とする。
論文 参考訳(メタデータ) (2022-06-06T04:59:44Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - Learning Modality-Specific Representations with Self-Supervised
Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。
我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。
提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-02-09T14:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。