論文の概要: (Almost) Free Modality Stitching of Foundation Models
- arxiv url: http://arxiv.org/abs/2507.10015v2
- Date: Tue, 15 Jul 2025 07:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 13:21:48.465584
- Title: (Almost) Free Modality Stitching of Foundation Models
- Title(参考訳): 基礎モデルの(ほとんど)自由モダリティスティッチ
- Authors: Jaisidh Singh, Diganta Misra, Boris Knyazev, Antonio Orvieto,
- Abstract要約: ハイパーネットを利用した最適ユニモーダルモデル選択とコネクタトレーニングのためのオールインワンソリューションを提案する。
具体的には、ハイパーネットワークのパラメータ予測機能を利用して、ユニモーダルモデルの組合せとして、N倍のM$に対して共同で訓練されたコネクタモジュールを得る。
実験では,マルチモーダルベンチマークを網羅したグリッドサーチにより得られたランキングと訓練されたコネクタ性能とを一致させながら,最高性能のユニモーダルモデルペアを10倍に検索するコストを削減した。
- 参考スコア(独自算出の注目度): 13.51886198929883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation multi-modal models are often designed by stitching of multiple existing pretrained uni-modal models: for example, an image classifier with an text model. This stitching process is performed by training a connector module that aims to align the representation spaces of these uni-modal models towards a multi-modal objective. However, given the complexity of training such connectors on large scale web-based datasets coupled with the ever-increasing number of available pretrained uni-modal models, the task of uni-modal models selection and subsequent connector module training becomes computationally demanding. To address this under-studied critical problem, we propose Hypernetwork Model Alignment (Hyma), a novel all-in-one solution for optimal uni-modal model selection and connector training by leveraging hypernetworks. Specifically, our framework utilizes the parameter prediction capability of a hypernetwork to obtain jointly trained connector modules for $N \times M$ combinations of uni-modal models. In our experiments, Hyma reduces the cost of searching for the best performing uni-modal model pair by $10\times$, while matching the ranking and trained connector performance obtained via grid search across a suite of diverse multi-modal benchmarks.
- Abstract(参考訳): 基礎的なマルチモーダルモデルは、例えば画像分類器とテキストモデルを含む複数の既存の事前訓練されたユニモーダルモデルを縫い合わせることで設計されることが多い。
この縫合は、これらのユニモーダルモデルの表現空間をマルチモーダル目的に整列させることを目的としたコネクタモジュールを訓練することにより行われる。
しかし、大規模なWebベースデータセット上でのこのようなコネクタのトレーニングの複雑さと、利用可能なユニモーダルモデルの増加に伴い、ユニモーダルモデルの選択とその後のコネクタモジュールのトレーニングが計算的に要求されるようになる。
提案するハイパーネットワークモデルアライメント(Hyma)は,ハイパーネットワークを利用した最適一様モデル選択およびコネクタトレーニングのための新しいオールインワンソリューションである。
具体的には、ハイパーネットワークのパラメータ予測機能を利用して、ユニモーダルモデルの組合せである$N \times M$に対して、共同で訓練されたコネクタモジュールを得る。
実験において,Hymaは,マルチモーダルベンチマークスイートを網羅したグリッドサーチにより得られた,最高性能のユニモーダルモデルペアを10\times$で検索するコストを削減した。
関連論文リスト
- Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。
これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。
本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou [23.818456863262494]
異なる下流モデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズするための定量的なマルチモーダルフレームワークを導入する。
ダウンストリームタスクの利用における2つの難題に着想を得て、異なるダウンストリームモデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズする定量的なマルチモーダルフレームワークを導入する。
論文 参考訳(メタデータ) (2024-11-18T17:08:35Z) - M3-JEPA: Multimodal Alignment via Multi-gate MoE based on the Joint-Embedding Predictive Architecture [6.928469290518152]
マルチモーダルタスクにJEPA(Joint-Embedding Predictive Architecture)を導入する。
入力埋め込みを出力埋め込み空間に予測器で変換し、次に潜在空間上でクロスモーダルアライメントを実行する。
我々は,M3-JEPAが様々なモダリティやタスクの最先端性能を達成でき,未知のデータセットやドメインに一般化でき,学習と推論の両方において計算効率がよいことを示す。
論文 参考訳(メタデータ) (2024-09-09T10:40:50Z) - Multimodal Lego: Model Merging and Fine-Tuning Across Topologies and Modalities in Biomedicine [10.774128925670183]
マルチモーダルレゴ(MM-Lego)は、あらゆるエンコーダを最小限の微調整なしで競争力のあるマルチモーダルモデルに変換する汎用的な融合フレームワークである。
本研究では, MM-Legoをモデルマージ法として用いることで, 微調整を伴わずに, エンドツーエンド融合モデルとの競合性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-05-30T11:14:01Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。