論文の概要: Cloud-Device Collaborative Learning for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2312.16279v1
- Date: Tue, 26 Dec 2023 18:46:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 20:19:58.031786
- Title: Cloud-Device Collaborative Learning for Multimodal Large Language Models
- Title(参考訳): マルチモーダル大規模言語モデルのためのクラウド・デバイス協調学習
- Authors: Guanqun Wang, Jiaming Liu, Chenxuan Li, Junpeng Ma, Yuan Zhang, Xinyu
Wei, Kevin Zhang, Maurice Chong, Ray Zhang, Yijiang Liu, Shanghang Zhang
- Abstract要約: 本稿では,クラウド・デバイス協調型継続的適応フレームワークを導入し,デバイス分割型MLLMの性能向上を図る。
当社のフレームワークは,効率的なデータ伝送のためのデバイス間アップリンク,クラウドベースの知識適応,モデルデプロイメントのための最適化されたクラウド間ダウンリンクという,3つの重要なコンポーネントで構成されています。
- 参考スコア(独自算出の注目度): 24.65882336700547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The burgeoning field of Multimodal Large Language Models (MLLMs) has
exhibited remarkable performance in diverse tasks such as captioning,
commonsense reasoning, and visual scene understanding. However, the deployment
of these large-scale MLLMs on client devices is hindered by their extensive
model parameters, leading to a notable decline in generalization capabilities
when these models are compressed for device deployment. Addressing this
challenge, we introduce a Cloud-Device Collaborative Continual Adaptation
framework, designed to enhance the performance of compressed, device-deployed
MLLMs by leveraging the robust capabilities of cloud-based, larger-scale MLLMs.
Our framework is structured into three key components: a device-to-cloud uplink
for efficient data transmission, cloud-based knowledge adaptation, and an
optimized cloud-to-device downlink for model deployment. In the uplink phase,
we employ an Uncertainty-guided Token Sampling (UTS) strategy to effectively
filter out-of-distribution tokens, thereby reducing transmission costs and
improving training efficiency. On the cloud side, we propose Adapter-based
Knowledge Distillation (AKD) method to transfer refined knowledge from
large-scale to compressed, pocket-size MLLMs. Furthermore, we propose a Dynamic
Weight update Compression (DWC) strategy for the downlink, which adaptively
selects and quantizes updated weight parameters, enhancing transmission
efficiency and reducing the representational disparity between cloud and device
models. Extensive experiments on several multimodal benchmarks demonstrate the
superiority of our proposed framework over prior Knowledge Distillation and
device-cloud collaboration methods. Notably, we also validate the feasibility
of our approach to real-world experiments.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急成長する分野は、キャプション、常識推論、視覚的シーン理解といった様々なタスクにおいて顕著なパフォーマンスを示している。
しかし、これらの大規模MLLMのクライアントデバイスへの展開は、その広範囲なモデルパラメータによって妨げられ、これらのモデルがデバイス展開のために圧縮されると、一般化能力が著しく低下する。
この課題に対処するために、クラウドベースの大規模MLLMの堅牢性を活用して、圧縮されたデバイスデプロイMLLMの性能を高めるために設計されたクラウドデバイス協調型継続的適応フレームワークを導入する。
私たちのフレームワークは3つの重要なコンポーネントで構成されています。効率的なデータ転送のためのデバイス間アップリンク、クラウドベースの知識適応、モデル展開のための最適化されたクラウド間ダウンリンクです。
アップリンクフェーズでは、不確実性誘導トークンサンプリング(uts)戦略を採用し、分散トークンを効果的にフィルタリングし、伝送コストを低減し、トレーニング効率を向上させる。
クラウド側では、大規模から圧縮されたポケットサイズのMLLMから洗練された知識を伝達するAdapter-based Knowledge Distillation (AKD)法を提案する。
さらに,このダウンリンクの動的重み更新圧縮(dwc)戦略を提案する。これは,更新重みパラメータを適応的に選択し,定量化し,伝送効率を向上し,クラウドとデバイスモデル間の表現格差を低減させる。
複数のマルチモーダルベンチマークに関する広範囲な実験により,先行知識蒸留法やデバイス・クラウド協調法よりも,提案フレームワークが優れていることが示された。
また,実世界実験へのアプローチの実現可能性についても検証した。
関連論文リスト
- Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Contemporary Model Compression on Large Language Models Inference [7.307436175842646]
大規模言語モデル(LLM)は、様々なタスクで最先端の結果を達成することによって、自然言語処理に革命をもたらした。
LLM推論の計算要求は、高いメモリ消費と遅い処理速度を含み、現実世界のアプリケーションにとって大きな課題となっている。
本研究では, LLMのサイズと計算量を削減することにより, これらの課題に対処するモデル圧縮技術について検討する。
論文 参考訳(メタデータ) (2024-09-03T15:35:01Z) - Backpropagation-Free Multi-modal On-Device Model Adaptation via Cloud-Device Collaboration [37.456185990843515]
ユニバーサルオンデバイスマルチモーダルモデル適応フレームワークを提案する。
このフレームワークは、クラウドにホストされるFast Domain Adaptor(FDA)を特徴とし、デバイス上の軽量マルチモーダルモデル用に調整されたパラメータを提供する。
私たちの貢献は、オンデバイスマルチモーダルモデル適応(DMMA)の先駆的なソリューションである。
論文 参考訳(メタデータ) (2024-05-21T14:42:18Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - ECLM: Efficient Edge-Cloud Collaborative Learning with Continuous
Environment Adaptation [47.35179593006409]
動的エッジ環境に対する高速モデル適応のためのエッジクラウド協調学習フレームワークECLMを提案する。
その結果,ECLM はモデルの性能(例えば 18.89% の精度向上)と資源効率(例えば 7.12 倍の通信コスト削減)を,動的エッジ環境への適応において著しく向上させることを示した。
論文 参考訳(メタデータ) (2023-11-18T14:10:09Z) - Device-Cloud Collaborative Learning for Recommendation [50.01289274123047]
集中型クラウドモデルにより「数千人のモデルを持つ何千人もの人」を効率的に実現する新しいMetaPatch学習手法をデバイス側で提案します。
数十億の更新されたパーソナライズされたデバイスモデルにより、集中型クラウドモデルを更新する"モデルオーバーモデル"蒸留アルゴリズム、すなわちMoMoDistillを提案する。
論文 参考訳(メタデータ) (2021-04-14T05:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。