論文の概要: Scaling Law Hypothesis for Multimodal Model
- arxiv url: http://arxiv.org/abs/2409.06754v3
- Date: Thu, 07 Nov 2024 17:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-09 00:49:05.408336
- Title: Scaling Law Hypothesis for Multimodal Model
- Title(参考訳): マルチモーダルモデルのスケーリング法則仮説
- Authors: Qingyun Sun, Zhen Guo,
- Abstract要約: 共有トークンと埋め込み空間内でテキスト、音声、画像、ビデオを処理するマルチモーダルモデルに対するスケーリング法則仮説を提案する。
本フレームワークは、モダリティ固有の圧縮とトークン化効率に基づいてモデル性能を予測し、テキストベースのデコーダモデルから混合モダリティシステムまで、確立されたスケーリング法則を拡張した。
- 参考スコア(独自算出の注目度): 9.233037024539534
- License:
- Abstract: We propose a scaling law hypothesis for multimodal models processing text, audio, images, and video within a shared token and embedding space. Our framework predicts model performance based on modality-specific compression and tokenization efficiency, extending established scaling laws from text-based decoder models to mixed-modality systems. We explore whether leveraging more training data in multiple modalities can reduce the size of the multimodal model, enabling efficient deployment on resource-constrained devices.
- Abstract(参考訳): 共有トークンと埋め込み空間内でテキスト、音声、画像、ビデオを処理するマルチモーダルモデルに対するスケーリング法則仮説を提案する。
本フレームワークは、モダリティ固有の圧縮とトークン化効率に基づいてモデル性能を予測し、テキストベースのデコーダモデルから混合モダリティシステムまで、確立されたスケーリング法則を拡張した。
複数のモードでより多くのトレーニングデータを活用することで、マルチモーダルモデルのサイズが小さくなり、リソース制約のあるデバイスへの効率的なデプロイが可能になるかどうかを検討する。
関連論文リスト
- From Unimodal to Multimodal: Scaling up Projectors to Align Modalities [16.733970553781887]
そこで本研究では,事前学習した凍結アンモダルエンコーダ上の投影層のみを用いて,視覚と言語モダリティを整合させる手法を提案する。
本手法は,よく訓練された視覚の埋め込み空間と言語モデルとのセマンティックな類似性を利用した。
これには、潜在空間における意味的に類似したエンコーダの選択、イメージキャプチャペアの概念豊富なデータセットのキュレーション、シンプルなプロジェクタのトレーニングが含まれる。
論文 参考訳(メタデータ) (2024-09-28T17:57:32Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - MM-Lego: Modular Biomedical Multimodal Models with Minimal Fine-Tuning [10.774128925670183]
マルチモーダルレゴ(MM-Lego)は、モジュール式で汎用的な融合およびモデルマージフレームワークである。
本研究では,MM-Legoをモデルマージ法としてエンド・ツー・エンドの融合モデルと組み合わせることができることを示す。
6つのベンチマークされたマルチモーダルバイオメディカルタスクに対して、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-05-30T11:14:01Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Efficient Multimodal Diffusion Models Using Joint Data Infilling with
Partially Shared U-Net [20.437172251393257]
部分共有U-Net (PS-U-Net) は、テキストと画像の入力を専用層を通過させ、モダリティ固有の細かな詳細を保存するためのスキップ接続を可能にする効率的なマルチモーダル拡散モデルである。
また,画像インパインティングに着想を得て,簡単な関節分布の学習を必要とせず,条件付き生成の新しいシナリオを導入する,効率的なマルチモーダルサンプリング手法を提案する。
我々はMS-COCOデータセットを実験的に探索し,既存のマルチモーダル拡散モデルと比較して高画質のマルチモーダルテキストと画像データを生成することを示した。
論文 参考訳(メタデータ) (2023-11-28T04:34:44Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Multimodal E-Commerce Product Classification Using Hierarchical Fusion [0.0]
提案手法は,本課題における一助モデルの性能と類似モデルの性能を有意に向上させた。
我々は,複数のヒューズ技術を用いて実験を行い,単一モーダルネットワークの個別埋め込みを結合する最も優れた手法は,結合と特徴ベクトルの平均化によるものであることを確認した。
論文 参考訳(メタデータ) (2022-07-07T14:04:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。