Fugu-MT 論文翻訳(概要): Scaling Law Hypothesis for Multimodal Model

論文の概要: Scaling Law Hypothesis for Multimodal Model

arxiv url: http://arxiv.org/abs/2409.06754v4
Date: Mon, 11 Nov 2024 18:32:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.939704
Title: Scaling Law Hypothesis for Multimodal Model
Title（参考訳）: マルチモーダルモデルのスケーリング法則仮説
Authors: Qingyun Sun, Zhen Guo, PIN AI Team,
Abstract要約: 共有トークンと埋め込み空間内でテキスト、音声、画像、ビデオを処理するマルチモーダルモデルに対するスケーリング法則仮説を提案する。本フレームワークは、モダリティ固有の圧縮とトークン化効率に基づいてモデル性能を予測し、テキストベースのデコーダモデルから混合モダリティシステムまで、確立されたスケーリング法則を拡張した。
参考スコア（独自算出の注目度）: 8.215178209572201
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a scaling law hypothesis for multimodal models processing text, audio, images, and video within a shared token and embedding space. Our framework predicts model performance based on modality-specific compression and tokenization efficiency, extending established scaling laws from text-based decoder models to mixed-modality systems. We explore whether leveraging more training data in multiple modalities can reduce the size of the multimodal model, enabling efficient deployment on resource-constrained devices.
Abstract（参考訳）: 共有トークンと埋め込み空間内でテキスト、音声、画像、ビデオを処理するマルチモーダルモデルに対するスケーリング法則仮説を提案する。本フレームワークは、モダリティ固有の圧縮とトークン化効率に基づいてモデル性能を予測し、テキストベースのデコーダモデルから混合モダリティシステムまで、確立されたスケーリング法則を拡張した。複数のモードでより多くのトレーニングデータを活用することで、マルチモーダルモデルのサイズが小さくなり、リソース制約のあるデバイスへの効率的なデプロイが可能になるかどうかを検討する。

関連論文リスト

Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces [10.85468238780625]
任意の状態空間上に多モード拡散モデルを構築するための新しいフレームワークを提案する。各モードに対して革新的な分離ノイズスケジュールを導入することにより、単一モデル内で非条件とモード条件の両方を同時に生成することが可能となる。
論文参考訳（メタデータ） (2025-06-09T16:20:20Z)
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
Efficient Multi-modal Long Context Learning for Training-free Adaptation [96.21248144937627]
本稿では,マルチモーダル長文脈学習(EMLoC)について紹介する。モデル入力に直接デモ例を埋め込む。長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
論文参考訳（メタデータ） (2025-05-26T10:49:44Z)
LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-23T22:39:54Z)
Token Communication-Driven Multimodal Large Models in Resource-Constrained Multiuser Networks [7.137830911253685]
マルチモーダルの大型モデルはインテリジェントなアプリケーションをワイヤレスエッジに展開する上でこれらの制約は、帯域幅、計算能力、および厳格なレイテンシ要件として表される。本稿では,ユーザデバイスとエッジインフラストラクチャ間の分散的な拡散を促進するトークン通信パラダイムを提案する。
論文参考訳（メタデータ） (2025-05-06T14:17:05Z)
Platonic Grounding for Efficient Multimodal Language Models [22.715168904364756]
我々は、事前訓練されたモデルの整合性に依存する既存のマルチモーダルフレームワークをモチベーションし、簡単な修正を提案する。私たちの研究は、事前学習されたモデルをより大規模なシステムに効率的に組み合わせることにも影響します。
論文参考訳（メタデータ） (2025-04-27T18:56:26Z)
From Unimodal to Multimodal: Scaling up Projectors to Align Modalities [16.733970553781887]
そこで本研究では,事前学習した凍結アンモダルエンコーダ上の投影層のみを用いて,視覚と言語モダリティを整合させる手法を提案する。本手法は,よく訓練された視覚の埋め込み空間と言語モデルとのセマンティックな類似性を利用した。これには、潜在空間における意味的に類似したエンコーダの選択、イメージキャプチャペアの概念豊富なデータセットのキュレーション、シンプルなプロジェクタのトレーニングが含まれる。
論文参考訳（メタデータ） (2024-09-28T17:57:32Z)
Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文参考訳（メタデータ） (2024-08-07T12:42:09Z)
DiffMM: Multi-Modal Diffusion Model for Recommendation [19.43775593283657]
DiffMMと呼ばれる新しいマルチモーダルグラフ拡散モデルを提案する。本フレームワークは,モダリティを意識したグラフ拡散モデルとクロスモーダルコントラスト学習パラダイムを統合し,モダリティを意識したユーザ表現学習を改善する。
論文参考訳（メタデータ） (2024-06-17T17:35:54Z)
MM-Lego: Modular Biomedical Multimodal Models with Minimal Fine-Tuning [10.774128925670183]
マルチモーダルレゴ(MM-Lego)は、モジュール式で汎用的な融合およびモデルマージフレームワークである。本研究では,MM-Legoをモデルマージ法としてエンド・ツー・エンドの融合モデルと組み合わせることができることを示す。 6つのベンチマークされたマルチモーダルバイオメディカルタスクに対して、最先端の結果を得る。
論文参考訳（メタデータ） (2024-05-30T11:14:01Z)
Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文参考訳（メタデータ） (2024-03-12T14:58:52Z)
Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文参考訳（メタデータ） (2024-02-20T06:38:10Z)
Efficient Multimodal Diffusion Models Using Joint Data Infilling with Partially Shared U-Net [20.437172251393257]
部分共有U-Net (PS-U-Net) は、テキストと画像の入力を専用層を通過させ、モダリティ固有の細かな詳細を保存するためのスキップ接続を可能にする効率的なマルチモーダル拡散モデルである。また,画像インパインティングに着想を得て,簡単な関節分布の学習を必要とせず,条件付き生成の新しいシナリオを導入する,効率的なマルチモーダルサンプリング手法を提案する。我々はMS-COCOデータセットを実験的に探索し,既存のマルチモーダル拡散モデルと比較して高画質のマルチモーダルテキストと画像データを生成することを示した。
論文参考訳（メタデータ） (2023-11-28T04:34:44Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Improving Discriminative Multi-Modal Learning with Large-Scale Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。 MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文参考訳（メタデータ） (2023-10-08T15:01:54Z)
Vertical Layering of Quantized Neural Networks for Heterogeneous Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文参考訳（メタデータ） (2022-12-10T15:57:38Z)
Multimodal E-Commerce Product Classification Using Hierarchical Fusion [0.0]
提案手法は,本課題における一助モデルの性能と類似モデルの性能を有意に向上させた。我々は,複数のヒューズ技術を用いて実験を行い,単一モーダルネットワークの個別埋め込みを結合する最も優れた手法は,結合と特徴ベクトルの平均化によるものであることを確認した。
論文参考訳（メタデータ） (2022-07-07T14:04:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。