論文の概要: Survey on Self-Supervised Multimodal Representation Learning and
Foundation Models
- arxiv url: http://arxiv.org/abs/2211.15837v1
- Date: Tue, 29 Nov 2022 00:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 14:35:25.298746
- Title: Survey on Self-Supervised Multimodal Representation Learning and
Foundation Models
- Title(参考訳): 自己監督型マルチモーダル表現学習と基礎モデルに関する調査
- Authors: Sushil Thapa
- Abstract要約: 本稿では,現代における多目的自己指導型表現学習の基盤構築に直接的あるいは間接的に責任を負うランドマーク研究論文のいくつかを要約する。
この論文は、過去数年間における各モダリティの表現学習の発展と、その後のマルチモーダルエージェントの獲得にどのように組み合わされたかについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep learning has been the subject of growing interest in recent years.
Specifically, a specific type called Multimodal learning has shown great
promise for solving a wide range of problems in domains such as language,
vision, audio, etc. One promising research direction to improve this further
has been learning rich and robust low-dimensional data representation of the
high-dimensional world with the help of large-scale datasets present on the
internet. Because of its potential to avoid the cost of annotating large-scale
datasets, self-supervised learning has been the de facto standard for this task
in recent years. This paper summarizes some of the landmark research papers
that are directly or indirectly responsible to build the foundation of
multimodal self-supervised learning of representation today. The paper goes
over the development of representation learning over the last few years for
each modality and how they were combined to get a multimodal agent later.
- Abstract(参考訳): 近年、深層学習が関心を集めている。
特に、マルチモーダル学習と呼ばれる特定のタイプは、言語、ビジョン、オーディオなど、幅広い領域の問題を解決するための大きな約束を示している。
これを改善するための有望な研究方向の1つは、インターネット上の大規模データセットの助けを借りて、高次元世界のリッチで堅牢な低次元データ表現を学ぶことである。
大規模データセットのアノテートコストを回避する可能性があるため、自己教師型学習は近年、このタスクのデファクトスタンダードとなっている。
本稿では,現代における多目的自己指導型表現学習の基礎構築に直接的あるいは間接的に責任を負うランドマーク研究論文の一部を要約する。
この論文は、過去数年間における各モダリティの表現学習の発展と、それらを組み合わせてマルチモーダルエージェントを得る方法について述べる。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。
これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。
我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文 参考訳(メタデータ) (2024-05-29T17:59:20Z) - Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。
本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。
実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。
最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文 参考訳(メタデータ) (2023-11-22T05:15:12Z) - UniDoc: A Universal Large Multimodal Model for Simultaneous Text
Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。
我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2023-08-19T17:32:34Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・
次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - A survey on Self Supervised learning approaches for improving Multimodal
representation learning [13.581713668241552]
本稿では,マルチモーダル学習における自己指導型学習手法の概要について述べる。
本稿では, クロスモーダル生成, クロスモーダル事前学習, サイクリック翻訳, 単調ラベル生成について述べる。
論文 参考訳(メタデータ) (2022-10-20T05:19:49Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - A Review on Methods and Applications in Multimodal Deep Learning [8.152125331009389]
マルチモーダル深層学習は、様々な感覚が情報処理に携わっているときに、よりよく理解し、分析するのに役立つ。
本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。
様々なマルチモーダル深層学習手法のきめ細かい分類法を提案し,様々な応用をより深く研究した。
論文 参考訳(メタデータ) (2022-02-18T13:50:44Z) - Deep Long-Tailed Learning: A Survey [163.16874896812885]
ディープ・ロングテール・ラーニング(Deep Long-tailed Learning)は、長いテールのクラス分布に追従する多数の画像から、優れたパフォーマンスのディープモデルをトレーニングすることを目的としている。
長い尾を持つクラス不均衡は、現実的な視覚認識タスクにおいて一般的な問題である。
本稿では,近年の長期学習の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2021-10-09T15:25:22Z) - Recent Advances and Trends in Multimodal Deep Learning: A Review [9.11022096530605]
マルチモーダルディープラーニングは、様々なモーダルを使って情報を処理およびリンクできるモデルを作成することを目的としている。
本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。
様々なマルチモーダル深層学習応用のきめ細かい分類法が提案され、様々な応用をより深く研究している。
論文 参考訳(メタデータ) (2021-05-24T04:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。