Fugu-MT 論文翻訳(概要): Cloud-Device Collaborative Learning for Multimodal Large Language Models

論文の概要: Cloud-Device Collaborative Learning for Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2312.16279v1
Date: Tue, 26 Dec 2023 18:46:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 20:19:58.031786
Title: Cloud-Device Collaborative Learning for Multimodal Large Language Models
Title（参考訳）: マルチモーダル大規模言語モデルのためのクラウド・デバイス協調学習
Authors: Guanqun Wang, Jiaming Liu, Chenxuan Li, Junpeng Ma, Yuan Zhang, Xinyu Wei, Kevin Zhang, Maurice Chong, Ray Zhang, Yijiang Liu, Shanghang Zhang
Abstract要約: 本稿では,クラウド・デバイス協調型継続的適応フレームワークを導入し,デバイス分割型MLLMの性能向上を図る。当社のフレームワークは,効率的なデータ伝送のためのデバイス間アップリンク,クラウドベースの知識適応,モデルデプロイメントのための最適化されたクラウド間ダウンリンクという,3つの重要なコンポーネントで構成されています。
参考スコア（独自算出の注目度）: 24.65882336700547
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The burgeoning field of Multimodal Large Language Models (MLLMs) has exhibited remarkable performance in diverse tasks such as captioning, commonsense reasoning, and visual scene understanding. However, the deployment of these large-scale MLLMs on client devices is hindered by their extensive model parameters, leading to a notable decline in generalization capabilities when these models are compressed for device deployment. Addressing this challenge, we introduce a Cloud-Device Collaborative Continual Adaptation framework, designed to enhance the performance of compressed, device-deployed MLLMs by leveraging the robust capabilities of cloud-based, larger-scale MLLMs. Our framework is structured into three key components: a device-to-cloud uplink for efficient data transmission, cloud-based knowledge adaptation, and an optimized cloud-to-device downlink for model deployment. In the uplink phase, we employ an Uncertainty-guided Token Sampling (UTS) strategy to effectively filter out-of-distribution tokens, thereby reducing transmission costs and improving training efficiency. On the cloud side, we propose Adapter-based Knowledge Distillation (AKD) method to transfer refined knowledge from large-scale to compressed, pocket-size MLLMs. Furthermore, we propose a Dynamic Weight update Compression (DWC) strategy for the downlink, which adaptively selects and quantizes updated weight parameters, enhancing transmission efficiency and reducing the representational disparity between cloud and device models. Extensive experiments on several multimodal benchmarks demonstrate the superiority of our proposed framework over prior Knowledge Distillation and device-cloud collaboration methods. Notably, we also validate the feasibility of our approach to real-world experiments.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の急成長する分野は、キャプション、常識推論、視覚的シーン理解といった様々なタスクにおいて顕著なパフォーマンスを示している。しかし、これらの大規模MLLMのクライアントデバイスへの展開は、その広範囲なモデルパラメータによって妨げられ、これらのモデルがデバイス展開のために圧縮されると、一般化能力が著しく低下する。この課題に対処するために、クラウドベースの大規模MLLMの堅牢性を活用して、圧縮されたデバイスデプロイMLLMの性能を高めるために設計されたクラウドデバイス協調型継続的適応フレームワークを導入する。私たちのフレームワークは3つの重要なコンポーネントで構成されています。効率的なデータ転送のためのデバイス間アップリンク、クラウドベースの知識適応、モデル展開のための最適化されたクラウド間ダウンリンクです。アップリンクフェーズでは、不確実性誘導トークンサンプリング(uts)戦略を採用し、分散トークンを効果的にフィルタリングし、伝送コストを低減し、トレーニング効率を向上させる。クラウド側では、大規模から圧縮されたポケットサイズのMLLMから洗練された知識を伝達するAdapter-based Knowledge Distillation (AKD)法を提案する。さらに,このダウンリンクの動的重み更新圧縮(dwc)戦略を提案する。これは,更新重みパラメータを適応的に選択し,定量化し,伝送効率を向上し,クラウドとデバイスモデル間の表現格差を低減させる。複数のマルチモーダルベンチマークに関する広範囲な実験により,先行知識蒸留法やデバイス・クラウド協調法よりも,提案フレームワークが優れていることが示された。また,実世界実験へのアプローチの実現可能性についても検証した。

関連論文リスト

Efficient Multi-modal Long Context Learning for Training-free Adaptation [96.21248144937627]
本稿では,マルチモーダル長文脈学習(EMLoC)について紹介する。モデル入力に直接デモ例を埋め込む。長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
論文参考訳（メタデータ） (2025-05-26T10:49:44Z)
PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。 PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文参考訳（メタデータ） (2025-03-15T15:11:17Z)
A Hybrid Swarm Intelligence Approach for Optimizing Multimodal Large Language Models Deployment in Edge-Cloud-based Federated Learning Environments [10.72166883797356]
Federated Learning (FL)、Multimodal Large Language Models (MLLM)、エッジ・クラウド・コンピューティングは分散およびリアルタイムのデータ処理を可能にする。そこで本研究では,MLLMを十分なリソースとバッテリ寿命を備えたエッジデバイスにデプロイするハイブリッドフレームワークを提案する。実験の結果,提案手法はシステム性能を大幅に向上し,92%の精度を実現し,通信コストを30%削減し,クライアントの参加性を高めた。
論文参考訳（メタデータ） (2025-02-04T03:03:24Z)
SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。コードとモデルはリリースされます。
論文参考訳（メタデータ） (2024-12-12T18:59:26Z)
AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。 AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文参考訳（メタデータ） (2024-11-15T22:02:28Z)
CE-CoLLM: Efficient and Adaptive Large Language Models Through Cloud-Edge Collaboration [1.6021932740447968]
大型言語モデル(LLM)は、人間のような優れた予測能力を示す。 LLMをデプロイして、エッジで効率的かつ適応的な推論サービスを提供するのは難しい。本稿では,これらの課題に対処するために,LLM(CE-CoLLM)のための新しいクラウドエッジコラボレーションフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-05T06:00:27Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Contemporary Model Compression on Large Language Models Inference [7.307436175842646]
大規模言語モデル(LLM)は、様々なタスクで最先端の結果を達成することによって、自然言語処理に革命をもたらした。 LLM推論の計算要求は、高いメモリ消費と遅い処理速度を含み、現実世界のアプリケーションにとって大きな課題となっている。本研究では, LLMのサイズと計算量を削減することにより, これらの課題に対処するモデル圧縮技術について検討する。
論文参考訳（メタデータ） (2024-09-03T15:35:01Z)
Backpropagation-Free Multi-modal On-Device Model Adaptation via Cloud-Device Collaboration [37.456185990843515]
ユニバーサルオンデバイスマルチモーダルモデル適応フレームワークを提案する。このフレームワークは、クラウドにホストされるFast Domain Adaptor(FDA)を特徴とし、デバイス上の軽量マルチモーダルモデル用に調整されたパラメータを提供する。私たちの貢献は、オンデバイスマルチモーダルモデル適応(DMMA)の先駆的なソリューションである。
論文参考訳（メタデータ） (2024-05-21T14:42:18Z)
Efficient Heterogeneous Large Language Model Decoding with Model-Attention Disaggregation [15.35494431928751]
トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて顕著なパフォーマンスを示すと同時に、現実のサービスにおいて大きな課題をもたらす。 LLMデコーディングの効率を高めるために,モデルアテンションデアグリゲーションを導入する。分散ヘテロジニアスクラスタにモデルアテンションデアグリゲーションを組み込んだLLM推論システムであるLaminaを開発し,展開する。
論文参考訳（メタデータ） (2024-05-03T02:15:15Z)
CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文参考訳（メタデータ） (2024-02-08T18:27:22Z)
ECLM: Efficient Edge-Cloud Collaborative Learning with Continuous Environment Adaptation [47.35179593006409]
動的エッジ環境に対する高速モデル適応のためのエッジクラウド協調学習フレームワークECLMを提案する。その結果,ECLM はモデルの性能(例えば 18.89% の精度向上)と資源効率(例えば 7.12 倍の通信コスト削減)を,動的エッジ環境への適応において著しく向上させることを示した。
論文参考訳（メタデータ） (2023-11-18T14:10:09Z)
Device-Cloud Collaborative Learning for Recommendation [50.01289274123047]
集中型クラウドモデルにより「数千人のモデルを持つ何千人もの人」を効率的に実現する新しいMetaPatch学習手法をデバイス側で提案します。数十億の更新されたパーソナライズされたデバイスモデルにより、集中型クラウドモデルを更新する"モデルオーバーモデル"蒸留アルゴリズム、すなわちMoMoDistillを提案する。
論文参考訳（メタデータ） (2021-04-14T05:06:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。