論文の概要: Local-Cloud Inference Offloading for LLMs in Multi-Modal, Multi-Task, Multi-Dialogue Settings
- arxiv url: http://arxiv.org/abs/2502.11007v2
- Date: Mon, 07 Apr 2025 18:49:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:25:35.495980
- Title: Local-Cloud Inference Offloading for LLMs in Multi-Modal, Multi-Task, Multi-Dialogue Settings
- Title(参考訳): マルチモーダル・マルチタスク・マルチダイアログ設定におけるLLMのローカルクラウド推論オフロード
- Authors: Liangqi Yuan, Dong-Jun Han, Shiqiang Wang, Christopher G. Brinton,
- Abstract要約: 大規模言語モデル(LLM)は、複数の対話やマルチモーダルデータソースを通じてマルチタスク解決能力を示すことができる。
LLMのこれらのユニークな特徴は、その大きなモデルサイズとともに、そのデプロイメントをより困難にしている。
我々は,マルチモーダル,マルチタスク,マルチ対話という3次元オフロードを備えたローカルクラウドLLM推論システムであるTMOを設計する。
- 参考スコア(独自算出の注目度): 25.184186431458862
- License:
- Abstract: Compared to traditional machine learning models, recent large language models (LLMs) can exhibit multi-task-solving capabilities through multiple dialogues and multi-modal data sources. These unique characteristics of LLMs, together with their large model size, make their deployment more challenging. Specifically, (i) deploying LLMs on local devices faces computational, memory, and energy resource issues, while (ii) deploying them in the cloud cannot guarantee real-time service and incurs communication/usage costs. In this paper, we design TMO, a local-cloud LLM inference system with Three-M Offloading: Multi-modal, Multi-task, and Multi-dialogue. TMO incorporates (i) a lightweight local LLM that can process simple tasks at high speed and (ii) a large-scale cloud LLM that can handle multi-modal data sources. We develop a resource-constrained reinforcement learning (RCRL) strategy for TMO that optimizes the inference location (i.e., local vs. cloud) and multi-modal data sources to use for each task/dialogue, aiming to maximize the long-term reward (response quality, latency, and usage cost) while adhering to resource constraints. We also contribute M4A1, a new dataset we curated that contains reward and cost metrics across multiple modality, task, dialogue, and LLM configurations, enabling evaluation of offloading decisions. We demonstrate the effectiveness of TMO compared to several exploration-decision and LLM-as-Agent baselines, showing significant improvements in latency, cost, and response quality.
- Abstract(参考訳): 従来の機械学習モデルと比較して、最近の大規模言語モデル(LLM)は、複数の対話やマルチモーダルデータソースを通じてマルチタスク解決能力を示すことができる。
LLMのこれらのユニークな特徴は、その大きなモデルサイズとともに、そのデプロイメントをより困難にしている。
具体的には
i) LLMをローカルデバイスにデプロイする場合は,計算,メモリ,エネルギー資源の問題が発生する。
(II) クラウドにデプロイしても、リアルタイムサービスを保証することができず、通信/利用コストがかかります。
本稿では,マルチモーダル,マルチタスク,マルチダイアログという3つのオフロードを備えたローカルクラウドLLM推論システムであるTMOを設計する。
TMOインクルージョン
(i)簡単なタスクを高速かつ高速に処理できる軽量なローカルLCM
(ii)マルチモーダルデータソースを処理できる大規模クラウドLLM。
我々は,リソース制約を順守しつつ,長期報酬(品質,レイテンシ,使用コスト)を最大化することを目的として,TMOの推論位置(ローカル対クラウド)とマルチモーダルデータソースを各タスク/対話で使用するように最適化するリソース制約強化学習(RCRL)戦略を開発した。
M4A1は、複数のモダリティ、タスク、対話、LLM構成をまたいだ報酬とコストのメトリクスを含んでおり、オフロード決定の評価を可能にします。
本稿では,TMOの有効性を,いくつかの探索-決定とLLM-as-Agentベースラインと比較し,レイテンシ,コスト,応答品質の大幅な改善を示した。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning [25.45278447786954]
MLLM-LLaVA-FL(Multimodal Large Language Model Assisted Federated Learning)と呼ばれる新しいフェデレーション学習フレームワークを導入する。
当社のフレームワークは,Webサイトや強力なサーバサイド計算リソースからアクセス可能な,広範かつ未公開のオープンソースデータを活用することに長けています。
論文 参考訳(メタデータ) (2024-09-09T21:04:16Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - SoupLM: Model Integration in Large Language and Multi-Modal Models [51.12227693121004]
大規模言語モデル(LLM)の訓練には、かなりの計算資源が必要である。
既存の公開LLMは通常、さまざまなタスクにまたがる、多種多様なプライベートにキュレートされたデータセットで事前トレーニングされる。
論文 参考訳(メタデータ) (2024-07-11T05:38:15Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Mutual Enhancement of Large and Small Language Models with Cross-Silo
Knowledge Transfer [27.63746419563747]
大規模言語モデル (LLM) には幅広い知識が与えられているが、そのタスク固有の性能は、しばしば準最適である。
タスク固有のデータで微調整 LLM を必要とするが、プライバシー上の懸念からアクセスできない可能性がある。
本研究では,より小さな言語モデル (SLM) でLLMを強化し,クライアント上でプライベートなタスク固有データを用いて学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-10T09:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。