論文の概要: Minions: Cost-efficient Collaboration Between On-device and Cloud Language Models
- arxiv url: http://arxiv.org/abs/2502.15964v1
- Date: Fri, 21 Feb 2025 21:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:59:19.192815
- Title: Minions: Cost-efficient Collaboration Between On-device and Cloud Language Models
- Title(参考訳): Minions: オンデバイスとクラウド言語モデル間のコスト効率のコラボレーション
- Authors: Avanika Narayan, Dan Biderman, Sabri Eyuboglu, Avner May, Scott Linderman, James Zou, Christopher Re,
- Abstract要約: ローカルデータにアクセス可能な小型オンデバイス言語モデル(LM)が、フロンティアのクラウドホスト型LMと通信する新興環境について検討する。
本分析により,ローカルリモートシステムにおけるコストと性能のトレードオフに影響を与える重要な設計選択がいくつか明らかになった。
- 参考スコア(独自算出の注目度): 33.800311852859984
- License:
- Abstract: We investigate an emerging setup in which a small, on-device language model (LM) with access to local data communicates with a frontier, cloud-hosted LM to solve real-world tasks involving financial, medical, and scientific reasoning over long documents. Can a local-remote collaboration reduce cloud inference costs while preserving quality? First, we consider a naive collaboration protocol where the local and remote models simply chat back and forth. Because only the local model reads the full context, this protocol achieves a 30.4x reduction in remote costs, but recovers only 87% of the performance of the frontier model. We identify two key limitations of this protocol: the local model struggles to (1) follow the remote model's multi-step instructions and (2) reason over long contexts. Motivated by these observations, we study an extension of this protocol, coined MinionS, in which the remote model decomposes the task into easier subtasks over shorter chunks of the document, that are executed locally in parallel. MinionS reduces costs by 5.7x on average while recovering 97.9% of the performance of the remote model alone. Our analysis reveals several key design choices that influence the trade-off between cost and performance in local-remote systems.
- Abstract(参考訳): ローカルデータへのアクセスが可能な小型オンデバイス言語モデル(LM)がフロンティアのクラウドホスト型LMと通信し,長期にわたる財務・医療・科学的な推論を含む現実的な課題を解決するための,新たなセットアップについて検討する。
ローカルとリモートのコラボレーションは、品質を維持しながらクラウド推論コストを削減できるのか?
まず、ローカルモデルとリモートモデルが相互にチャットする単純な協調プロトコルについて検討する。
ローカルモデルのみが完全なコンテキストを読み取るため、このプロトコルは30.4倍のリモートコスト削減を実現するが、フロンティアモデルの性能の87%しか回復しない。
ローカルモデルは,(1)遠隔モデルのマルチステップ命令に従うのに苦労し,(2)長期的コンテキストに対する理由付けを行う。
これらの観測により、リモートモデルがタスクを文書の短いチャンクよりも簡単にサブタスクに分解し、ローカルに並列に実行されるMinionSというプロトコルの拡張について検討した。
MinionSは、リモートモデルのみのパフォーマンスの97.9%を回復しながら、平均で5.7倍のコスト削減を行う。
本分析により,ローカルリモートシステムにおけるコストと性能のトレードオフに影響を与える重要な設計選択がいくつか明らかになった。
関連論文リスト
- Mixture of Attentions For Speculative Decoding [17.344416130742232]
投機的復号法(SD)は、より小さなモデルを利用して将来のトークンを効率的に提案し、それを大規模言語モデルによって並列に検証する。
SDモデルには、トレーニング中のオン・ポリティネスの欠如や部分観測可能性の欠如など、いくつかの制限がある。
SD用ミクチャ・オブ・アテンションの導入により,小型モデルのより基礎的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-04T10:25:52Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - Real-time Speech Interruption Analysis: From Cloud to Client Deployment [20.694024217864783]
我々は最近,音声の中断を検知する最初の音声中断解析モデルを開発した。
この機能をよりコスト効率が高く、環境に優しい方法で提供するため、クライアントデバイスでWavLM_SIモデルを出荷するために、モデルの複雑さとサイズを削減しました。
論文 参考訳(メタデータ) (2022-10-24T15:39:51Z) - Quantization for decentralized learning under subspace constraints [61.59416703323886]
エージェントがサブスペース制約を最小化するために個々のコスト関数を持つ分散最適化問題を考察する。
本稿では,エージェントが確率化量子化器を用いて推定値を圧縮する適応分散型戦略を提案し,検討する。
この分析は、量子化ノイズのいくつかの一般的な条件下では、平均二乗誤差と平均ビットレートの両方で戦略が安定であることを示している。
論文 参考訳(メタデータ) (2022-09-16T09:38:38Z) - $\texttt{FedBC}$: Calibrating Global and Local Models via Federated
Learning Beyond Consensus [66.62731854746856]
フェデレートラーニング(FL)では、デバイス全体にわたるモデル更新の集約を通じて、グローバルモデルを協調的に学習する目的は、ローカル情報を通じたパーソナライズという目標に反対する傾向にある。
本研究では,このトレードオフを多基準最適化により定量的にキャリブレーションする。
私たちは、$texttFedBC$が、スイートデータセット間でグローバルおよびローカルモデルのテスト精度のメトリクスのバランスをとることを実証しています。
論文 参考訳(メタデータ) (2022-06-22T02:42:04Z) - Centralized Model and Exploration Policy for Multi-Agent RL [13.661446184763117]
部分的に観察可能な完全協調型マルチエージェント設定(Dec-POMDP)での強化学習は、現実世界の多くの課題に対処するために使用できる。
Dec-POMDPの現在のRLアルゴリズムは、サンプルの複雑さに悩まされている。
モデルベースアルゴリズムであるMARCOを3つの協調通信タスクで提案し、サンプル効率を最大20倍改善する。
論文 参考訳(メタデータ) (2021-07-14T00:34:08Z) - Cocktail: Leveraging Ensemble Learning for Optimized Model Serving in
Public Cloud [9.149566952446058]
コスト効率の良いアンサンブル型モデル提供フレームワークであるCocktailを提案する。
AWS EC2プラットフォームであるCocktailonのプロトタイプ実装と、さまざまなワークロードを使用した徹底的な評価オプションにより、Cocktailcanがデプロイメントコストを1.45倍削減できることが示されている。
論文 参考訳(メタデータ) (2021-06-09T19:23:58Z) - Device-Cloud Collaborative Learning for Recommendation [50.01289274123047]
集中型クラウドモデルにより「数千人のモデルを持つ何千人もの人」を効率的に実現する新しいMetaPatch学習手法をデバイス側で提案します。
数十億の更新されたパーソナライズされたデバイスモデルにより、集中型クラウドモデルを更新する"モデルオーバーモデル"蒸留アルゴリズム、すなわちMoMoDistillを提案する。
論文 参考訳(メタデータ) (2021-04-14T05:06:59Z) - Optimizing Privacy-Preserving Outsourced Convolutional Neural Network
Predictions [23.563775490174415]
近年の研究では、クエリと結果のプライバシに焦点が当てられているが、モデルホストサーバに対してモデルプライバシを提供していない。
本稿では,アウトソース環境でのプライバシ保護型ニューラルネットワーク予測のための新しい手法を提案する。
我々は、秘密の共有とトリプルト生成を伴う2つの非凝固サーバを活用して、重厚暗号の使用を最小限にする。
論文 参考訳(メタデータ) (2020-02-22T08:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。