論文の概要: Sample-efficient Integration of New Modalities into Large Language Models
- arxiv url: http://arxiv.org/abs/2509.04606v1
- Date: Thu, 04 Sep 2025 18:41:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.389318
- Title: Sample-efficient Integration of New Modalities into Large Language Models
- Title(参考訳): 大規模言語モデルへの新しいモーダリティのサンプル効率統合
- Authors: Osman Batur İnce, André F. T. Martins, Oisin Mac Aodha, Edoardo M. Ponti,
- Abstract要約: マルチモーダル基礎モデルはいくつかのモダリティを処理できる。
本稿では,大規模言語モデルへのサンプル効率改善手法を提案する。
SEMIは、新しいモダリティを数秒で統合することで、サンプル効率を大幅に向上することがわかった。
- 参考スコア(独自算出の注目度): 48.81776019848246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal foundation models can process several modalities. However, since the space of possible modalities is large and evolving over time, training a model from scratch to encompass all modalities is unfeasible. Moreover, integrating a modality into a pre-existing foundation model currently requires a significant amount of paired data, which is often not available for low-resource modalities. In this paper, we introduce a method for sample-efficient modality integration (SEMI) into Large Language Models (LLMs). To this end, we devise a hypernetwork that can adapt a shared projector -- placed between modality-specific encoders and an LLM -- to any modality. The hypernetwork, trained on high-resource modalities (i.e., text, speech, audio, video), is conditioned on a few samples from any arbitrary modality at inference time to generate a suitable adapter. To increase the diversity of training modalities, we artificially multiply the number of encoders through isometric transformations. We find that SEMI achieves a significant boost in sample efficiency during few-shot integration of new modalities (i.e., satellite images, astronomical images, inertial measurements, and molecules) with encoders of arbitrary embedding dimensionality. For instance, to reach the same accuracy as 32-shot SEMI, training the projector from scratch needs 64$\times$ more data. As a result, SEMI holds promise to extend the modality coverage of foundation models.
- Abstract(参考訳): マルチモーダル基礎モデルはいくつかのモダリティを処理できる。
しかし、可能なモダリティの空間は時間とともに大きく進化し、すべてのモダリティを包含するようにモデルをスクラッチから訓練することは不可能である。
さらに、既存の基礎モデルにモダリティを統合するには、多くの場合、低リソースのモダリティでは利用できない大量のペアデータが必要である。
本稿では,SEMIをLarge Language Models (LLMs) に組み込む手法を提案する。
この目的のために、モダリティ固有のエンコーダとLLMの間に配置された共有プロジェクタを任意のモダリティに適応できるハイパーネットワークを考案する。
高リソースモード(テキスト、音声、音声、ビデオ)で訓練されたハイパーネットワークは、推論時に任意のモダリティからいくつかのサンプルに条件付けされ、適切なアダプタを生成する。
トレーニングモダリティの多様性を高めるために,等尺変換を用いてエンコーダの数を人工的に乗算する。
SEMIは、衛星画像、天体画像、慣性測定、分子などの新しいモダリティを任意の埋め込み次元のエンコーダに組み込む際に、サンプル効率を著しく向上させる。
例えば、32ショットのSEMIと同じ精度に達するためには、スクラッチからプロジェクタをトレーニングするには64$\times$以上のデータが必要です。
その結果、SEMIは基礎モデルのモダリティカバレッジを拡張することを約束している。
関連論文リスト
- Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Multimodal Lego: Model Merging and Fine-Tuning Across Topologies and Modalities in Biomedicine [10.774128925670183]
マルチモーダルレゴ(MM-Lego)は、あらゆるエンコーダを最小限の微調整なしで競争力のあるマルチモーダルモデルに変換する汎用的な融合フレームワークである。
本研究では, MM-Legoをモデルマージ法として用いることで, 微調整を伴わずに, エンドツーエンド融合モデルとの競合性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-05-30T11:14:01Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。
TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。
またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文 参考訳(メタデータ) (2024-01-20T04:46:43Z) - What Makes for Robust Multi-Modal Models in the Face of Missing
Modalities? [35.19295402483624]
我々は、情報理論の観点から、欠落するモダリティに遭遇するマルチモーダルモデルのシナリオをモデル化する。
UME-MMA(Uni-Modal Ensemble with Missing Modality Adaptation)を紹介する。
UME-MMAは、マルチモーダルモデルのための一様事前訓練重みを用いて特徴抽出を強化し、欠落したモダリティデータ拡張技術を用いて、モダリティのない状況に適応する。
論文 参考訳(メタデータ) (2023-10-10T07:47:57Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。