Fugu-MT 論文翻訳(概要): Self-Supervised Multimodal Learning: A Survey

論文の概要: Self-Supervised Multimodal Learning: A Survey

arxiv url: http://arxiv.org/abs/2304.01008v2
Date: Fri, 4 Aug 2023 21:17:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 23:30:56.462242
Title: Self-Supervised Multimodal Learning: A Survey
Title（参考訳）: 自己教師付きマルチモーダル学習:調査
Authors: Yongshuo Zong, Oisin Mac Aodha, Timothy Hospedales
Abstract要約: マルチモーダル学習は、複数のモーダルからの情報を理解し分析することを目的としている。高価なヒューマンアノテーションと組み合わせたデータへの大きな依存は、モデルのスケールアップを妨げる。大規模無意味なデータが野生で利用可能であることを考えると、自己教師型学習は、アノテーションボトルネックを軽減するための魅力的な戦略となっている。
参考スコア（独自算出の注目度）: 10.134639792276847
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal learning, which aims to understand and analyze information from multiple modalities, has achieved substantial progress in the supervised regime in recent years. However, the heavy dependence on data paired with expensive human annotations impedes scaling up models. Meanwhile, given the availability of large-scale unannotated data in the wild, self-supervised learning has become an attractive strategy to alleviate the annotation bottleneck. Building on these two directions, self-supervised multimodal learning (SSML) provides ways to learn from raw multimodal data. In this survey, we provide a comprehensive review of the state-of-the-art in SSML, in which we elucidate three major challenges intrinsic to self-supervised learning with multimodal data: (1) learning representations from multimodal data without labels, (2) fusion of different modalities, and (3) learning with unaligned data. We then detail existing solutions to these challenges. Specifically, we consider (1) objectives for learning from multimodal unlabeled data via self-supervision, (2) model architectures from the perspective of different multimodal fusion strategies, and (3) pair-free learning strategies for coarse-grained and fine-grained alignment. We also review real-world applications of SSML algorithms in diverse fields such as healthcare, remote sensing, and machine translation. Finally, we discuss challenges and future directions for SSML. A collection of related resources can be found at: https://github.com/ys-zong/awesome-self-supervised-multimodal-learning.
Abstract（参考訳）: マルチモーダル学習は、複数のモーダルからの情報を理解し分析することを目的としており、近年、監督体制において大きな進歩を遂げている。しかし、高価な人間のアノテーションと組み合わせたデータへの強い依存は、モデルのスケールアップを妨げる。一方,大規模無記名データの利用状況を考えると,自己教師あり学習は,アノテーションのボトルネックを緩和するための魅力的な戦略となっている。これら2つの方向に基づいて、自己教師付きマルチモーダル学習(SSML)は、生のマルチモーダルデータから学習する方法を提供する。本研究では,マルチモーダルデータを用いた自己教師あり学習に本質的な3つの課題,(1)ラベルのないマルチモーダルデータからの学習表現,(2)異なるモダリティの融合,(3)不整合データによる学習について,ssmlの最先端を総合的に検討する。そして、これらの課題に対する既存の解決策を詳述する。具体的には,(1)自己スーパービジョンによるマルチモーダル非ラベルデータから学習する目的,(2)異なるマルチモーダル融合戦略の観点からのモデルアーキテクチャ,(3)粗粒度および細粒度アライメントのためのペアフリー学習戦略を考える。また、医療、リモートセンシング、機械翻訳といった様々な分野におけるSSMLアルゴリズムの実際の応用についてもレビューする。最後に,SSMLの課題と今後の方向性について論じる。関連リソースのコレクションは、https://github.com/ys-zong/awesome-self-supervised-multimodal-learningにある。

関連論文リスト

Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning [41.523848964102]
最近の視覚言語モデル(VLM)は強化学習(RL)を通して顕著な推論を実現する RLは、経験の時代に連続的に進化する大規模視覚言語モデル(LVLM)を実現するための実現可能なソリューションを提供する。合成データや自己回帰機構といった既存の戦略は、限られた分布とアライメントの困難に悩まされている。問題解決ではなく,まず文脈から学習するようにモデルに誘導する,二重分離フレームワークDoGeを提案する。
論文参考訳（メタデータ） (2025-12-07T13:17:31Z)
Can multimodal representation learning by alignment preserve modality-specific information? [2.0816054646359805]
マルチモーダル表現学習技術は、同じ地理的領域で取得された異なるモーダルの衛星データ間の空間的アライメントを利用する。仮定をシンプルにすると、アライメント戦略が基本的に情報損失につながることが示される。我々は、マルチモーダル衛星データの組み合わせに関して、対照的な学習の新たな発展を支援したい。
論文参考訳（メタデータ） (2025-09-22T16:06:10Z)
Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。 VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文参考訳（メタデータ） (2025-08-06T09:03:10Z)
Continual Multimodal Contrastive Learning [70.60542106731813]
マルチモーダル・コントラッシブ・ラーニング(MCL)は、異なるモーダルを整列させ、関節空間で多モーダル表現を生成する。マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文参考訳（メタデータ） (2025-03-19T07:57:08Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
An Information Criterion for Controlled Disentanglement of Multimodal Data [39.601584166020274]
マルチモーダル表現学習は、複数のモーダルに固有の情報を関連付けて分解しようとする。 Disentangled Self-Supervised Learning (DisentangledSSL)は、非角表現を学習するための新しい自己教師型アプローチである。
論文参考訳（メタデータ） (2024-10-31T14:57:31Z)
Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T16:09:38Z)
Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文参考訳（メタデータ） (2024-01-16T08:44:29Z)
Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。 MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文参考訳（メタデータ） (2023-11-17T18:57:40Z)
Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文参考訳（メタデータ） (2023-10-11T13:25:03Z)
MinT: Boosting Generalization in Mathematical Reasoning via Multi-View Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文参考訳（メタデータ） (2023-07-16T05:41:53Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)
Shared and Private Information Learning in Multimodal Sentiment Analysis with Deep Modal Alignment and Self-supervised Multi-Task Learning [8.868945335907867]
本稿では、モーダル間の共有情報を取得するための深いモーダル共有情報学習モジュールを提案する。また、自己教師付き学習戦略に基づくラベル生成モジュールを使用して、モダリティのプライベート情報をキャプチャする。当社のアプローチは,3つの公開データセットの指標のほとんどにおいて,最先端の手法よりも優れています。
論文参考訳（メタデータ） (2023-05-15T09:24:48Z)
Beyond Just Vision: A Review on Self-Supervised Representation Learning on Multimodal and Temporal Data [10.006890915441987]
自己教師型学習の普及は、従来のモデルがトレーニングに大量の十分な注釈付きデータを必要とするという事実によって引き起こされる。モデルの差別的事前学習を通じて、訓練データの効率を向上させるための自己指導手法が導入された。我々は,時間的データに対するマルチモーダルな自己教師型学習手法の総合的なレビューを初めて提供することを目的とする。
論文参考訳（メタデータ） (2022-06-06T04:59:44Z)
Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文参考訳（メタデータ） (2021-02-09T14:05:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。