論文の概要: Survey on Self-Supervised Multimodal Representation Learning and
Foundation Models
- arxiv url: http://arxiv.org/abs/2211.15837v1
- Date: Tue, 29 Nov 2022 00:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 14:35:25.298746
- Title: Survey on Self-Supervised Multimodal Representation Learning and
Foundation Models
- Title(参考訳): 自己監督型マルチモーダル表現学習と基礎モデルに関する調査
- Authors: Sushil Thapa
- Abstract要約: 本稿では,現代における多目的自己指導型表現学習の基盤構築に直接的あるいは間接的に責任を負うランドマーク研究論文のいくつかを要約する。
この論文は、過去数年間における各モダリティの表現学習の発展と、その後のマルチモーダルエージェントの獲得にどのように組み合わされたかについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep learning has been the subject of growing interest in recent years.
Specifically, a specific type called Multimodal learning has shown great
promise for solving a wide range of problems in domains such as language,
vision, audio, etc. One promising research direction to improve this further
has been learning rich and robust low-dimensional data representation of the
high-dimensional world with the help of large-scale datasets present on the
internet. Because of its potential to avoid the cost of annotating large-scale
datasets, self-supervised learning has been the de facto standard for this task
in recent years. This paper summarizes some of the landmark research papers
that are directly or indirectly responsible to build the foundation of
multimodal self-supervised learning of representation today. The paper goes
over the development of representation learning over the last few years for
each modality and how they were combined to get a multimodal agent later.
- Abstract(参考訳): 近年、深層学習が関心を集めている。
特に、マルチモーダル学習と呼ばれる特定のタイプは、言語、ビジョン、オーディオなど、幅広い領域の問題を解決するための大きな約束を示している。
これを改善するための有望な研究方向の1つは、インターネット上の大規模データセットの助けを借りて、高次元世界のリッチで堅牢な低次元データ表現を学ぶことである。
大規模データセットのアノテートコストを回避する可能性があるため、自己教師型学習は近年、このタスクのデファクトスタンダードとなっている。
本稿では,現代における多目的自己指導型表現学習の基礎構築に直接的あるいは間接的に責任を負うランドマーク研究論文の一部を要約する。
この論文は、過去数年間における各モダリティの表現学習の発展と、それらを組み合わせてマルチモーダルエージェントを得る方法について述べる。
関連論文リスト
- Large Language Models for Generative Information Extraction: A Survey [93.28676955662002]
情報抽出は、平易な自然言語テキストから構造的知識を抽出することを目的としている。
生成型大規模言語モデル(LLM)は、テキストの理解と生成において顕著な能力を示した。
LLMは生成パラダイムに基づいたIEタスクに対して実行可能なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。
本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。
実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。
最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文 参考訳(メタデータ) (2023-11-22T05:15:12Z) - UniDoc: A Universal Large Multimodal Model for Simultaneous Text
Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。
我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2023-08-19T17:32:34Z) - Self-Supervised Multimodal Learning: A Survey [10.134639792276847]
マルチモーダル学習は、複数のモーダルからの情報を理解し分析することを目的としている。
高価なヒューマンアノテーションと組み合わせたデータへの大きな依存は、モデルのスケールアップを妨げる。
大規模無意味なデータが野生で利用可能であることを考えると、自己教師型学習は、アノテーションボトルネックを軽減するための魅力的な戦略となっている。
論文 参考訳(メタデータ) (2023-03-31T16:11:56Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [69.03538086844516]
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来のディープラーニング, 事前学習の成果を概観することにより, マルチモーダル事前学習の背景を紹介する。
次に,マルチモーダル事前学習モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワークアーキテクチャ,知識強化事前学習に着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - A survey on Self Supervised learning approaches for improving Multimodal
representation learning [13.581713668241552]
本稿では,マルチモーダル学習における自己指導型学習手法の概要について述べる。
本稿では, クロスモーダル生成, クロスモーダル事前学習, サイクリック翻訳, 単調ラベル生成について述べる。
論文 参考訳(メタデータ) (2022-10-20T05:19:49Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - A Review on Methods and Applications in Multimodal Deep Learning [8.152125331009389]
マルチモーダル深層学習は、様々な感覚が情報処理に携わっているときに、よりよく理解し、分析するのに役立つ。
本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。
様々なマルチモーダル深層学習手法のきめ細かい分類法を提案し,様々な応用をより深く研究した。
論文 参考訳(メタデータ) (2022-02-18T13:50:44Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z) - Deep Long-Tailed Learning: A Survey [163.16874896812885]
ディープ・ロングテール・ラーニング(Deep Long-tailed Learning)は、長いテールのクラス分布に追従する多数の画像から、優れたパフォーマンスのディープモデルをトレーニングすることを目的としている。
長い尾を持つクラス不均衡は、現実的な視覚認識タスクにおいて一般的な問題である。
本稿では,近年の長期学習の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2021-10-09T15:25:22Z) - Recent Advances and Trends in Multimodal Deep Learning: A Review [9.11022096530605]
マルチモーダルディープラーニングは、様々なモーダルを使って情報を処理およびリンクできるモデルを作成することを目的としている。
本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。
様々なマルチモーダル深層学習応用のきめ細かい分類法が提案され、様々な応用をより深く研究している。
論文 参考訳(メタデータ) (2021-05-24T04:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。