論文の概要: A Shared Encoder Approach to Multimodal Representation Learning
- arxiv url: http://arxiv.org/abs/2503.01654v1
- Date: Mon, 03 Mar 2025 15:29:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:15.639001
- Title: A Shared Encoder Approach to Multimodal Representation Learning
- Title(参考訳): 共有エンコーダによるマルチモーダル表現学習
- Authors: Shuvendu Roy, Franklin Ogidi, Ali Etemad, Elham Dolatabadi, Arash Afkanpour,
- Abstract要約: 医療領域に適したマルチモーダル表現学習のための共有エンコーダフレームワークを提案する。
提案手法では,モダリティ間で共有される1組のエンコーダパラメータを用い,学習可能なモダリティ特徴を付加する。
- 参考スコア(独自算出の注目度): 17.863705872504
- License:
- Abstract: Multimodal representation learning has demonstrated remarkable potential in enabling models to process and integrate diverse data modalities, such as text and images, for improved understanding and performance. While the medical domain can benefit significantly from this paradigm, the scarcity of paired multimodal data and reliance on proprietary or pretrained encoders pose significant challenges. In this work, we present a shared encoder framework for multimodal representation learning tailored to the medical domain. Our approach employs a single set of encoder parameters shared across modalities, augmented with learnable modality features. Empirical results demonstrate that our shared encoder idea achieves superior performance compared to separate modality-specific encoders, demonstrating improved generalization in data-constrained settings. Notably, the performance gains are more pronounced with fewer training examples, underscoring the efficiency of our shared encoder framework for real-world medical applications with limited data. Our code and experiment setup are available at https://github.com/VectorInstitute/shared_encoder.
- Abstract(参考訳): マルチモーダル表現学習は、モデルがテキストや画像などの多様なデータモダリティを処理し、統合し、理解と性能を向上させることを可能にしている。
医療領域は、このパラダイムから大きな恩恵を受けることができるが、ペア化されたマルチモーダルデータの不足と、プロプライエタリまたは事前訓練されたエンコーダへの依存は、重大な課題となる。
本研究では,医療領域に適したマルチモーダル表現学習のための共有エンコーダフレームワークを提案する。
提案手法では,モダリティ間で共有される1組のエンコーダパラメータを用い,学習可能なモダリティ特徴を付加する。
実験結果から,共有エンコーダのアイデアは,データ制約設定における一般化の向上を実証し,個別のモダリティ固有のエンコーダに比べて優れた性能を発揮することが示された。
特に、データ制限のある実世界の医療アプリケーションにおいて、共有エンコーダフレームワークの効率を強調し、より少ないトレーニング例でパフォーマンス向上がより顕著になる。
私たちのコードと実験のセットアップはhttps://github.com/VectorInstitute/shared_encoder.comで公開されています。
関連論文リスト
- MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation [63.31007867379312]
我々は,大規模な事前学習モデルを直接エンコーダや機能フューザとして統合するフレームワークであるStitchFusionを提案する。
我々は,エンコーディング中に多方向アダプタモジュール(MultiAdapter)を導入し,モーダル間情報転送を実現する。
本モデルは,最小限の追加パラメータを持つ4つのマルチモーダルセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-02T15:41:16Z) - A tutorial on multi-view autoencoders using the multi-view-AE library [0.0]
マルチビューオートエンコーダのための統一的な数学的枠組みを提案する。
それぞれのモデルのモチベーションと理論的アドバンテージに関する洞察を提供する。
以前導入された textttmulti-view-AE ライブラリのドキュメントと機能を拡張する。
論文 参考訳(メタデータ) (2024-03-12T09:51:05Z) - Unity by Diversity: Improved Representation Learning in Multimodal VAEs [24.85691124169784]
ハード制約をソフト制約に置き換えることで、より優れた潜伏表現が得られることを示す。
既存の手法と比較して、学習した潜在表現の改善と欠落したデータモダリティの計算結果を示す。
論文 参考訳(メタデータ) (2024-03-08T13:29:46Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Multi-Level Contrastive Learning for Few-Shot Problems [7.695214001809138]
コントラスト学習(Contrastive Learning)は、類似したサンプルを互いに近づき、多様なサンプルを互いに遠ざかることを目的とした差別的なアプローチである。
本稿では,エンコーダの異なる層におけるコントラスト的損失を適用し,複数の表現をエンコーダから学習する多段階対等学習手法を提案する。
論文 参考訳(メタデータ) (2021-07-15T21:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。