Fugu-MT 論文翻訳(概要): Survey on Self-Supervised Multimodal Representation Learning and Foundation Models

論文の概要: Survey on Self-Supervised Multimodal Representation Learning and Foundation Models

arxiv url: http://arxiv.org/abs/2211.15837v1
Date: Tue, 29 Nov 2022 00:17:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-30 14:35:25.298746
Title: Survey on Self-Supervised Multimodal Representation Learning and Foundation Models
Title（参考訳）: 自己監督型マルチモーダル表現学習と基礎モデルに関する調査
Authors: Sushil Thapa
Abstract要約: 本稿では,現代における多目的自己指導型表現学習の基盤構築に直接的あるいは間接的に責任を負うランドマーク研究論文のいくつかを要約する。この論文は、過去数年間における各モダリティの表現学習の発展と、その後のマルチモーダルエージェントの獲得にどのように組み合わされたかについて述べる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Deep learning has been the subject of growing interest in recent years. Specifically, a specific type called Multimodal learning has shown great promise for solving a wide range of problems in domains such as language, vision, audio, etc. One promising research direction to improve this further has been learning rich and robust low-dimensional data representation of the high-dimensional world with the help of large-scale datasets present on the internet. Because of its potential to avoid the cost of annotating large-scale datasets, self-supervised learning has been the de facto standard for this task in recent years. This paper summarizes some of the landmark research papers that are directly or indirectly responsible to build the foundation of multimodal self-supervised learning of representation today. The paper goes over the development of representation learning over the last few years for each modality and how they were combined to get a multimodal agent later.
Abstract（参考訳）: 近年、深層学習が関心を集めている。特に、マルチモーダル学習と呼ばれる特定のタイプは、言語、ビジョン、オーディオなど、幅広い領域の問題を解決するための大きな約束を示している。これを改善するための有望な研究方向の1つは、インターネット上の大規模データセットの助けを借りて、高次元世界のリッチで堅牢な低次元データ表現を学ぶことである。大規模データセットのアノテートコストを回避する可能性があるため、自己教師型学習は近年、このタスクのデファクトスタンダードとなっている。本稿では,現代における多目的自己指導型表現学習の基礎構築に直接的あるいは間接的に責任を負うランドマーク研究論文の一部を要約する。この論文は、過去数年間における各モダリティの表現学習の発展と、それらを組み合わせてマルチモーダルエージェントを得る方法について述べる。

関連論文リスト

Tevatron 2.0: Unified Document Retrieval Toolkit across Scale, Language, and Modality [74.59049806800176]
このデモペーパーでは、Tevatronツールキットの重要な特徴、学界と産業の橋渡しについて取り上げている。強い多言語・多モーダルな有効性を実現するための密集型検索器について紹介する。私たちはOmniEmbedもリリースしています。私たちの知る限り、テキスト、画像ドキュメント、ビデオ、オーディオ検索を統一する最初の埋め込みモデルです。
論文参考訳（メタデータ） (2025-05-05T08:52:49Z)
Survey of Large Multimodal Model Datasets, Application Categories and Taxonomy [2.294223504228228]
人工知能の急速に発展する分野であるマルチモーダル学習は、より汎用的で堅牢なシステムの構築を目指している。多くの感覚を通じて情報を同化する人間の能力に触発され、テキストからビデオへの変換、視覚的質問応答、画像キャプションなどの応用が可能となる。マルチモーダル言語モデル(MLLM)をサポートするデータセットの最近の発展について概説する。
論文参考訳（メタデータ） (2024-12-23T18:15:19Z)
Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey [93.72125112643596]
Next Token Prediction (NTP)は、機械学習タスクの多目的な学習目標である。本調査では,マルチモーダル学習における理解と生成を一体化する包括的分類法を導入する。提案した分類法は,マルチモーダルトークン化,MMNTPモデルアーキテクチャ,統合タスク表現,データセットと評価,オープンチャレンジの5つの重要な側面を網羅している。
論文参考訳（メタデータ） (2024-12-16T05:02:25Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。 GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-10-14T16:09:38Z)
LLMs Meet Multimodal Generation and Editing: A Survey [89.76691959033323]
本調査では,画像,ビデオ,3D,オーディオなど,さまざまな領域にわたるマルチモーダル生成と編集について詳述する。これらの分野でのマイルストーンの成果を要約し、これらの研究をLLM法とCLIP/T5法に分類する。我々は、既存の生成モデルを人間とコンピュータの相互作用に活用できるツール強化マルチモーダルエージェントを掘り下げる。
論文参考訳（メタデータ） (2024-05-29T17:59:20Z)
Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文参考訳（メタデータ） (2023-11-22T05:15:12Z)
UniDoc: A Universal Large Multimodal Model for Simultaneous Text Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文参考訳（メタデータ） (2023-08-19T17:32:34Z)
Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [66.18478838828231]
マルチモーダルな事前訓練型大型モデルは近年ますます注目を集めている。本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来の深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・深層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・高層・次に,マルチモーダル・プレトレーニング・モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワーク,知識強化による事前トレーニングに着目して,MM-PTMについて議論する。
論文参考訳（メタデータ） (2023-02-20T15:34:03Z)
A survey on Self Supervised learning approaches for improving Multimodal representation learning [13.581713668241552]
本稿では,マルチモーダル学習における自己指導型学習手法の概要について述べる。本稿では, クロスモーダル生成, クロスモーダル事前学習, サイクリック翻訳, 単調ラベル生成について述べる。
論文参考訳（メタデータ） (2022-10-20T05:19:49Z)
Causal Reasoning Meets Visual Representation Learning: A Prospective Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文参考訳（メタデータ） (2022-04-26T02:22:28Z)
A Review on Methods and Applications in Multimodal Deep Learning [8.152125331009389]
マルチモーダル深層学習は、様々な感覚が情報処理に携わっているときに、よりよく理解し、分析するのに役立つ。本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。様々なマルチモーダル深層学習手法のきめ細かい分類法を提案し,様々な応用をより深く研究した。
論文参考訳（メタデータ） (2022-02-18T13:50:44Z)
Deep Long-Tailed Learning: A Survey [163.16874896812885]
ディープ・ロングテール・ラーニング(Deep Long-tailed Learning)は、長いテールのクラス分布に追従する多数の画像から、優れたパフォーマンスのディープモデルをトレーニングすることを目的としている。長い尾を持つクラス不均衡は、現実的な視覚認識タスクにおいて一般的な問題である。本稿では,近年の長期学習の進歩を包括的に調査する。
論文参考訳（メタデータ） (2021-10-09T15:25:22Z)
Recent Advances and Trends in Multimodal Deep Learning: A Review [9.11022096530605]
マルチモーダルディープラーニングは、様々なモーダルを使って情報を処理およびリンクできるモデルを作成することを目的としている。本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。様々なマルチモーダル深層学習応用のきめ細かい分類法が提案され、様々な応用をより深く研究している。
論文参考訳（メタデータ） (2021-05-24T04:20:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。