論文の概要: Multimodal Co-learning: Challenges, Applications with Datasets, Recent
Advances and Future Directions
- arxiv url: http://arxiv.org/abs/2107.13782v1
- Date: Thu, 29 Jul 2021 07:25:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 13:24:47.837774
- Title: Multimodal Co-learning: Challenges, Applications with Datasets, Recent
Advances and Future Directions
- Title(参考訳): マルチモーダルコラーニング:課題,データセットへの応用,最近の進歩,今後の展開
- Authors: Anil Rahate, Rahee Walambe, Sheela Ramanna, Ketan Kotecha
- Abstract要約: マルチモーダルディープラーニングシステムは、テキスト、画像、オーディオ、ビデオなど、複数のモードを使用する。
モダリティのモデリングは、モダリティ間の知識の伝達を用いて、他の(リソースに富んだ)モダリティからの知識を活用することで支援される。
本稿では,コラーニングと関連する実装の課題に基づいて,マルチモーダル・コラーニングの包括的分類について述べる。
- 参考スコア(独自算出の注目度): 2.064612766965483
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal deep learning systems which employ multiple modalities like text,
image, audio, video, etc., are showing better performance in comparison with
individual modalities (i.e., unimodal) systems. Multimodal machine learning
involves multiple aspects: representation, translation, alignment, fusion, and
co-learning. In the current state of multimodal machine learning, the
assumptions are that all modalities are present, aligned, and noiseless during
training and testing time. However, in real-world tasks, typically, it is
observed that one or more modalities are missing, noisy, lacking annotated
data, have unreliable labels, and are scarce in training or testing and or
both. This challenge is addressed by a learning paradigm called multimodal
co-learning. The modeling of a (resource-poor) modality is aided by exploiting
knowledge from another (resource-rich) modality using transfer of knowledge
between modalities, including their representations and predictive models.
Co-learning being an emerging area, there are no dedicated reviews explicitly
focusing on all challenges addressed by co-learning. To that end, in this work,
we provide a comprehensive survey on the emerging area of multimodal
co-learning that has not been explored in its entirety yet. We review
implementations that overcome one or more co-learning challenges without
explicitly considering them as co-learning challenges. We present the
comprehensive taxonomy of multimodal co-learning based on the challenges
addressed by co-learning and associated implementations. The various techniques
employed to include the latest ones are reviewed along with some of the
applications and datasets. Our final goal is to discuss challenges and
perspectives along with the important ideas and directions for future work that
we hope to be beneficial for the entire research community focusing on this
exciting domain.
- Abstract(参考訳): テキスト,画像,音声,ビデオなどの複数のモーダルを用いたマルチモーダルディープラーニングシステムは,個別のモーダル (unimodal) システムと比較すると,性能が向上している。
マルチモーダル機械学習には、表現、翻訳、アライメント、融合、コラーニングという複数の側面がある。
マルチモーダル機械学習の現在の状況では、トレーニングやテスト期間中にすべてのモダリティが存在、整列、ノイズのないことが前提となっている。
しかし、現実のタスクでは、通常、1つ以上のモダリティが欠落し、ノイズがあり、注釈付きデータが欠け、信頼できないラベルがあり、トレーニングやテストに不足している。
この課題はマルチモーダルコラーニングと呼ばれる学習パラダイムによって解決される。
モダリティのモデリングは、その表現や予測モデルを含むモダリティ間の知識の伝達を用いて、他の(リソースに富んだ)モダリティからの知識を活用することで支援される。
コラーニングは新興分野であり、コラーニングによって対処されるすべての課題に明示的にフォーカスする専用のレビューはない。
そこで,本研究では,マルチモーダル・コラーニングの新たな分野に関する総合的な調査を行い,その全体像について述べる。
ひとつ以上のコラーニング課題を克服する実装を、明示的にコラーニング課題とみなすことなくレビューする。
本稿では,マルチモーダル共学習の包括的分類法について,共学習と関連する実践の課題に基づいて述べる。
最新のものを含むために使用されるさまざまなテクニックは、アプリケーションやデータセットとともにレビューされる。
最後のゴールは、このエキサイティングな領域にフォーカスした研究コミュニティ全体に有益になることを望んでいる将来の仕事のための重要なアイデアと方向性と共に、課題と展望について話し合うことです。
関連論文リスト
- HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Machine Unlearning: A Survey [56.79152190680552]
プライバシ、ユーザビリティ、および/または忘れられる権利のために、特定のサンプルに関する情報をマシンアンラーニングと呼ばれるモデルから削除する必要がある特別なニーズが生まれている。
この新興技術は、その革新と実用性により、学者と産業の両方から大きな関心を集めている。
この複雑なトピックを分析したり、さまざまなシナリオで既存の未学習ソリューションの実現可能性を比較したりした研究はない。
この調査は、未学習のテクニックに関する卓越した問題と、新しい研究機会のための実現可能な方向性を強調して締めくくった。
論文 参考訳(メタデータ) (2023-06-06T10:18:36Z) - Multimodality Representation Learning: A Survey on Evolution,
Pretraining and Its Applications [47.501121601856795]
マルチモダリティ表現学習は、異なるモダリティとそれらの相関から情報を埋め込む学習手法である。
異なるモダリティからのクロスモーダル相互作用と補完情報は、高度なモデルが任意のマルチモーダルタスクを実行するために不可欠である。
本調査では,深層学習型マルチモーダルアーキテクチャの進化と拡張に関する文献を報告する。
論文 参考訳(メタデータ) (2023-02-01T11:48:34Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。
我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。
本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - Foundations and Recent Trends in Multimodal Machine Learning:
Principles, Challenges, and Open Questions [68.6358773622615]
本稿では,マルチモーダル機械学習の計算的基礎と理論的基礎について概説する。
本稿では,表現,アライメント,推論,生成,伝達,定量化という,6つの技術課題の分類法を提案する。
最近の技術的成果は、この分類のレンズを通して示され、研究者は新しいアプローチの類似点と相違点を理解することができる。
論文 参考訳(メタデータ) (2022-09-07T19:21:19Z) - Multi-Task Learning for Visual Scene Understanding [7.191593674138455]
この論文はコンピュータビジョンの文脈におけるマルチタスク学習に関するものである。
マルチタスク学習の重要な側面に対処するいくつかの手法を提案する。
その結果,マルチタスク学習の最先端にいくつかの進歩が見られた。
論文 参考訳(メタデータ) (2022-03-28T16:57:58Z) - Multimodality in Meta-Learning: A Comprehensive Survey [34.69292359136745]
このサーベイは、マルチモーダリティに基づくメタラーニングの展望を概観する。
我々はまず,メタラーニングとマルチモーダリティの定義と,この成長分野における研究課題を定式化する。
そこで我々は,マルチモーダルタスクと組み合わせた典型的なメタ学習アルゴリズムを体系的に議論する新しい分類法を提案する。
論文 参考訳(メタデータ) (2021-09-28T09:16:12Z) - Sense and Learn: Self-Supervision for Omnipresent Sensors [9.442811508809994]
我々は、生の知覚データから表現や特徴学習のためのSense and Learnというフレームワークを提案する。
これは、面倒なラベル付けプロセスに人間が関与することなく、注釈のないデータから、高レベルで広範囲に有用な特徴を学習できる補助的なタスクで構成されている。
提案手法は、教師付きアプローチと競合する結果を達成し、ネットワークを微調整し、ほとんどの場合、下流タスクを学習することでギャップを埋める。
論文 参考訳(メタデータ) (2020-09-28T11:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。