論文の概要: Recent Advances and Trends in Multimodal Deep Learning: A Review
- arxiv url: http://arxiv.org/abs/2105.11087v1
- Date: Mon, 24 May 2021 04:20:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 15:12:42.542530
- Title: Recent Advances and Trends in Multimodal Deep Learning: A Review
- Title(参考訳): マルチモーダル深層学習の最近の進歩と動向
- Authors: Jabeen Summaira, Xi Li, Amin Muhammad Shoib, Songyuan Li and Jabbar
Abdul
- Abstract要約: マルチモーダルディープラーニングは、様々なモーダルを使って情報を処理およびリンクできるモデルを作成することを目的としている。
本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。
様々なマルチモーダル深層学習応用のきめ細かい分類法が提案され、様々な応用をより深く研究している。
- 参考スコア(独自算出の注目度): 9.11022096530605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Learning has implemented a wide range of applications and has become
increasingly popular in recent years. The goal of multimodal deep learning is
to create models that can process and link information using various
modalities. Despite the extensive development made for unimodal learning, it
still cannot cover all the aspects of human learning. Multimodal learning helps
to understand and analyze better when various senses are engaged in the
processing of information. This paper focuses on multiple types of modalities,
i.e., image, video, text, audio, body gestures, facial expressions, and
physiological signals. Detailed analysis of past and current baseline
approaches and an in-depth study of recent advancements in multimodal deep
learning applications has been provided. A fine-grained taxonomy of various
multimodal deep learning applications is proposed, elaborating on different
applications in more depth. Architectures and datasets used in these
applications are also discussed, along with their evaluation metrics. Last,
main issues are highlighted separately for each domain along with their
possible future research directions.
- Abstract(参考訳): Deep Learningは幅広いアプリケーションを実装しており、近年はますます人気が高まっている。
マルチモーダル深層学習の目標は、様々なモダリティを用いて情報を処理およびリンクできるモデルを作成することである。
一助学習のための広範な発展にもかかわらず、人間の学習のあらゆる側面をカバーすることはできない。
マルチモーダル学習は、様々な感覚が情報の処理に関わったときに、理解し、よりよく分析するのに役立つ。
本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。
過去および現在のベースラインアプローチの詳細な分析と、マルチモーダルディープラーニングアプリケーションにおける最近の進歩に関する詳細な研究が提供されている。
様々なマルチモーダル深層学習応用のきめ細かい分類法が提案され、様々な応用をより深く研究している。
これらのアプリケーションで使用されるアーキテクチャやデータセットも、評価指標とともに議論されている。
最後に、各ドメインに関する主要な課題と将来の研究方向性を別々に強調する。
関連論文リスト
- Deep Learning-based Depth Estimation Methods from Monocular Image and Videos: A Comprehensive Survey [31.414360704020254]
単一のRGB画像とビデオから深度を推定することは、多くの分野で応用されているため、広く関心を集めている。
過去10年間に500以上のディープラーニングベースの論文が出版されている。
入力と出力のモダリティ、ネットワークアーキテクチャ、学習方法に基づいて、現在の作業を分類するための分類を提供する。
論文 参考訳(メタデータ) (2024-06-28T06:25:21Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Multimodality Representation Learning: A Survey on Evolution,
Pretraining and Its Applications [47.501121601856795]
マルチモダリティ表現学習は、異なるモダリティとそれらの相関から情報を埋め込む学習手法である。
異なるモダリティからのクロスモーダル相互作用と補完情報は、高度なモデルが任意のマルチモーダルタスクを実行するために不可欠である。
本調査では,深層学習型マルチモーダルアーキテクチャの進化と拡張に関する文献を報告する。
論文 参考訳(メタデータ) (2023-02-01T11:48:34Z) - Knowledge-augmented Deep Learning and Its Applications: A Survey [60.221292040710885]
知識強化ディープラーニング(KADL)は、ドメイン知識を特定し、それをデータ効率、一般化可能、解釈可能なディープラーニングのためのディープモデルに統合することを目的としている。
本調査は,既存の研究成果を補足し,知識強化深層学習の一般分野における鳥眼研究の展望を提供する。
論文 参考訳(メタデータ) (2022-11-30T03:44:15Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。
我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。
本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - A Review on Methods and Applications in Multimodal Deep Learning [8.152125331009389]
マルチモーダル深層学習は、様々な感覚が情報処理に携わっているときに、よりよく理解し、分析するのに役立つ。
本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。
様々なマルチモーダル深層学習手法のきめ細かい分類法を提案し,様々な応用をより深く研究した。
論文 参考訳(メタデータ) (2022-02-18T13:50:44Z) - Deep Long-Tailed Learning: A Survey [163.16874896812885]
ディープ・ロングテール・ラーニング(Deep Long-tailed Learning)は、長いテールのクラス分布に追従する多数の画像から、優れたパフォーマンスのディープモデルをトレーニングすることを目的としている。
長い尾を持つクラス不均衡は、現実的な視覚認識タスクにおいて一般的な問題である。
本稿では,近年の長期学習の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2021-10-09T15:25:22Z) - A Comprehensive Survey on Community Detection with Deep Learning [93.40332347374712]
コミュニティは、ネットワーク内の他のコミュニティと異なるメンバーの特徴と接続を明らかにする。
この調査は、最先端の手法の様々なカテゴリをカバーする新しい分類法を考案し、提案する。
ディープニューラルネットワーク(Deep Neural Network)は、畳み込みネットワーク(convolutional network)、グラフアテンションネットワーク( graph attention network)、生成的敵ネットワーク(generative adversarial network)、オートエンコーダ(autoencoder)に分けられる。
論文 参考訳(メタデータ) (2021-05-26T14:37:07Z) - A Review on Explainability in Multimodal Deep Neural Nets [2.3204178451683264]
マルチモーダルAI技術は、いくつかのアプリケーションドメインで大きな成功を収めている。
その優れた性能にもかかわらず、深層ニューラルネットワークの複雑で不透明でブラックボックスな性質は、社会的受容と使用性を制限する。
本稿では,マルチモーダル深層ニューラルネットワークにおける説明可能性に関する包括的調査と解説を行うため,本論文を概説する。
論文 参考訳(メタデータ) (2021-05-17T14:17:49Z) - Discussion of Ensemble Learning under the Era of Deep Learning [4.061135251278187]
深層学習のアンサンブル化は,学習システムの一般化に大きく貢献している。
複数のベース深層学習者のトレーニングとアンサンブル深層学習者によるテストのための時間と空間のオーバーヘッドは、従来のアンサンブル学習よりもはるかに大きい。
緊急に解決すべき問題は、必要な時間と空間のオーバーヘッドを減らしながら、ディープラーニングをアンサンブルする大きな利点をいかに活用するかである。
論文 参考訳(メタデータ) (2021-01-21T01:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。