論文の概要: Multimodality Representation Learning: A Survey on Evolution,
Pretraining and Its Applications
- arxiv url: http://arxiv.org/abs/2302.00389v2
- Date: Fri, 1 Mar 2024 18:44:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 21:11:33.686278
- Title: Multimodality Representation Learning: A Survey on Evolution,
Pretraining and Its Applications
- Title(参考訳): マルチモダリティ表現学習:進化,事前学習とその応用に関する調査
- Authors: Muhammad Arslan Manzoor, Sarah Albarri, Ziting Xian, Zaiqiao Meng,
Preslav Nakov, and Shangsong Liang
- Abstract要約: マルチモダリティ表現学習は、異なるモダリティとそれらの相関から情報を埋め込む学習手法である。
異なるモダリティからのクロスモーダル相互作用と補完情報は、高度なモデルが任意のマルチモーダルタスクを実行するために不可欠である。
本調査では,深層学習型マルチモーダルアーキテクチャの進化と拡張に関する文献を報告する。
- 参考スコア(独自算出の注目度): 47.501121601856795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodality Representation Learning, as a technique of learning to embed
information from different modalities and their correlations, has achieved
remarkable success on a variety of applications, such as Visual Question
Answering (VQA), Natural Language for Visual Reasoning (NLVR), and Vision
Language Retrieval (VLR). Among these applications, cross-modal interaction and
complementary information from different modalities are crucial for advanced
models to perform any multimodal task, e.g., understand, recognize, retrieve,
or generate optimally. Researchers have proposed diverse methods to address
these tasks. The different variants of transformer-based architectures
performed extraordinarily on multiple modalities. This survey presents the
comprehensive literature on the evolution and enhancement of deep learning
multimodal architectures to deal with textual, visual and audio features for
diverse cross-modal and modern multimodal tasks. This study summarizes the (i)
recent task-specific deep learning methodologies, (ii) the pretraining types
and multimodal pretraining objectives, (iii) from state-of-the-art pretrained
multimodal approaches to unifying architectures, and (iv) multimodal task
categories and possible future improvements that can be devised for better
multimodal learning. Moreover, we prepare a dataset section for new researchers
that covers most of the benchmarks for pretraining and finetuning. Finally,
major challenges, gaps, and potential research topics are explored. A
constantly-updated paperlist related to our survey is maintained at
https://github.com/marslanm/multimodality-representation-learning.
- Abstract(参考訳): マルチモダリティ表現学習(multimodality representation learning)は、異なるモダリティとその相関から情報を埋め込む手法として、視覚質問応答(vqa)、自然言語 for visual reasoning(nlvr)、視覚言語検索(vlr)といった様々なアプリケーションで顕著な成功を収めている。
これらのアプリケーションの中で、高度なモデルが任意のマルチモーダルタスク、例えば、理解、認識、検索、生成を最適に行うためには、クロスモーダル相互作用と異なるモダリティからの補完的情報が必要である。
研究者はこれらの課題に対処するための様々な方法を提案している。
異なる変圧器ベースのアーキテクチャは、複数のモダリティで特別に実行された。
本調査は,多言語・現代多モーダルタスクにおけるテキスト,視覚,音声の特徴を扱うための,深層学習型マルチモーダルアーキテクチャの進化と強化に関する包括的な文献を提示する。
本研究は概説する。
(i)近年のタスク特化深層学習手法
(ii)プリトレーニングタイプとマルチモーダルプリトレーニング目的。
(iii)最先端の事前学習したマルチモーダルアプローチからアーキテクチャ統一へ
(4)マルチモーダルなタスクカテゴリと、よりよいマルチモーダルな学習のために考案できる将来の改善の可能性。
さらに,プリトレーニングや微調整のためのベンチマークの大部分をカバーする,新たな研究者のためのデータセットセクションも用意する。
最後に、大きな課題、ギャップ、潜在的研究トピックについて検討する。
本調査に関連する定期的なペーパーリストは,https://github.com/marslanm/multimodality-representation-learningで維持されている。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。
これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。
我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文 参考訳(メタデータ) (2024-05-29T17:59:20Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。
本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。
実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。
最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文 参考訳(メタデータ) (2023-11-22T05:15:12Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - Multi-Task Learning for Visual Scene Understanding [7.191593674138455]
この論文はコンピュータビジョンの文脈におけるマルチタスク学習に関するものである。
マルチタスク学習の重要な側面に対処するいくつかの手法を提案する。
その結果,マルチタスク学習の最先端にいくつかの進歩が見られた。
論文 参考訳(メタデータ) (2022-03-28T16:57:58Z) - Multimodality in Meta-Learning: A Comprehensive Survey [34.69292359136745]
このサーベイは、マルチモーダリティに基づくメタラーニングの展望を概観する。
我々はまず,メタラーニングとマルチモーダリティの定義と,この成長分野における研究課題を定式化する。
そこで我々は,マルチモーダルタスクと組み合わせた典型的なメタ学習アルゴリズムを体系的に議論する新しい分類法を提案する。
論文 参考訳(メタデータ) (2021-09-28T09:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。