Fugu-MT 論文翻訳(概要): Distributed Mixture-of-Agents for Edge Inference with Large Language Models

論文の概要: Distributed Mixture-of-Agents for Edge Inference with Large Language Models

arxiv url: http://arxiv.org/abs/2412.21200v1
Date: Mon, 30 Dec 2024 18:59:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.856036
Title: Distributed Mixture-of-Agents for Edge Inference with Large Language Models
Title（参考訳）: 大規模言語モデルを用いたエッジ推論のための分散混合アルゴリズム
Authors: Purbesh Mitra, Priyanka Kaswan, Sennur Ulukus,
Abstract要約: 大規模言語モデル(LLM)の性能向上手法として,Mixture-of-Agents (MoA) が最近提案されている。このようなMoAアーキテクチャを,LLMが個々のエッジデバイスで動作する分散環境で検討する。実験を通じて、分散MoAの実装にオープンソースのLLMを活用し、特定のMoA構成が他と比較して高品質な応答を生成することを示す。
参考スコア（独自算出の注目度）: 31.285983939625098
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mixture-of-Agents (MoA) has recently been proposed as a method to enhance performance of large language models (LLMs), enabling multiple individual LLMs to work together for collaborative inference. This collaborative approach results in improved responses to user prompts compared to relying on a single LLM. In this paper, we consider such an MoA architecture in a distributed setting, where LLMs operate on individual edge devices, each uniquely associated with a user and equipped with its own distributed computing power. These devices exchange information using decentralized gossip algorithms, allowing different device nodes to talk without the supervision of a centralized server. In the considered setup, different users have their own LLM models to address user prompts. Additionally, the devices gossip either their own user-specific prompts or augmented prompts to generate more refined answers to certain queries. User prompts are temporarily stored in the device queues when their corresponding LLMs are busy. Given the memory limitations of edge devices, it is crucial to ensure that the average queue sizes in the system remain bounded. In this paper, we address this by theoretically calculating the queuing stability conditions for the device queues under reasonable assumptions, which we validate experimentally as well. Further, we demonstrate through experiments, leveraging open-source LLMs for the implementation of distributed MoA, that certain MoA configurations produce higher-quality responses compared to others, as evaluated on AlpacaEval 2.0 benchmark. The implementation is available at: https://github.com/purbeshmitra/distributed_moa.
Abstract（参考訳）: 大規模言語モデル(LLM)の性能向上手法として,Mixture-of-Agents (MoA) が最近提案されている。この協調的なアプローチは、1つのLLMに依存するよりもユーザプロンプトに対する応答が改善される。本稿では,LLMが個々のエッジデバイス上で動作し,それぞれがユーザと一意に関連付けられ,独自の分散コンピューティング能力を備える分散環境でのMoAアーキテクチャについて考察する。これらのデバイスは、分散化ゴシップアルゴリズムを使用して情報を交換し、複数のデバイスノードが集中サーバの監督なしに通信できるようにする。考慮された設定では、異なるユーザが独自のLLMモデルを持っていて、ユーザのプロンプトに対処する。さらに、デバイスは独自のユーザー固有のプロンプトや、特定のクエリに対するより洗練された回答を生成する拡張プロンプトをゴシップする。ユーザプロンプトは、対応するLLMが忙しければ、デバイスキューに一時的に格納される。エッジデバイスのメモリ制限を考えると、システム内の平均キューサイズがバウンドのままであることを保証することが重要です。本稿では,デバイスキューのキューング安定性条件を合理的な仮定で理論的に計算することで,この問題に対処する。さらに、AlpacaEval 2.0ベンチマークで評価したように、分散MoAの実装にオープンソースのLLMを利用することで、特定のMoA構成が他よりも高品質な応答を生成することを示す。実装は以下の通りである。 https://github.com/purbeshmitra/distributed_moa。

関連論文リスト

Cluster Workload Allocation: Semantic Soft Affinity Using Natural Language Processing [0.0]
本稿では,自然言語処理を用いたクラスタシステムのためのセマンティックな意図駆動型スケジューリングパラダイムを提案する。このシステムは、スケジューラ拡張子を介して統合されたLarge Language Cluster Model (LLM)を使用して、ソフトアフィニティの好みに対する自然言語アロケーションヒントアノテーションを解釈する。
論文参考訳（メタデータ） (2026-01-14T08:36:21Z)
Constrained Network Slice Assignment via Large Language Models [0.0]
ネットワークスライシングのための無線リソース割り当てにLarge Language Models (LLMs) を用いる方法について検討する。ゼロショットプロンプトであっても、LLMはスライス代入の合理的な第1ドラフトを生成することができることを示す。次に、LLMのサービス要求に対する理解を最適化解決器に組み込んで、改善されたアロケーションを生成する。
論文参考訳（メタデータ） (2025-11-14T07:47:42Z)
Towards On-Device Personalization: Cloud-device Collaborative Data Augmentation for Efficient On-device Language Model [43.13807038270687]
CDCDA-PLMは、強力なクラウドベースのLLMのサポートにより、デバイス上でパーソナライズされた言語モデルをユーザデバイスにデプロイするためのフレームワークである。実データと合成データの両方を用いて、パーソナライズされたオンデバイス言語モデル(LM)は、パラメータ効率の細かいチューニング(PEFT)モジュールを介して微調整される。
論文参考訳（メタデータ） (2025-08-29T02:33:13Z)
Multi-Bin Batching for Increasing LLM Inference Throughput [19.652542432683234]
大規模言語モデル(LL)は、システムの効率性を向上させるために人気が高まっている。リクエストはサーバ上のジョブをスケジューリングする重要なステップです。リクエストは、しばしば異なる生成長を持ち、リソースの未利用を引き起こす。我々は、この問題をキューイング理論の観点から形式化し、スループット制御ポリシーを設計することを目的とする。
論文参考訳（メタデータ） (2024-12-03T03:16:12Z)
WDMoE: Wireless Distributed Mixture of Experts for Large Language Models [68.45482959423323]
大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めた。本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
論文参考訳（メタデータ） (2024-11-11T02:48:00Z)
SplitLLM: Collaborative Inference of LLMs for Model Placement and Throughput Optimization [8.121663525764294]
大きな言語モデル(LLM)は、人間のようなテキストを理解し、生成する能力のために、私たちの日常生活において重要な役割を担います。本稿では,サーバとクライアント間の協調推論アーキテクチャを設計し,スループットの限界を緩和する。実験では、サーバのワークロードを約1/3削減できるように、効率よくワークロードを分散できることを示した。
論文参考訳（メタデータ） (2024-10-14T17:38:41Z)
ELMS: Elasticized Large Language Models On Mobile Devices [5.689405542579458]
デバイス上の大規模言語モデル(LLM)は、プライバシー問題に対処しながら、UI自動化などのアプリケーションを可能にする、モバイルAIに革命をもたらしている。 ELMSは、モデルとプロンプト次元の両方で弾力性を提供するように設計されたデバイス上でのLCMサービスである。トランスモデルに固有の置換整合性を利用して高品質で柔軟なサブモデルを作成するワンタイムリオーダーニューロニング技術。プロンプトを効率的に洗練し、モデルプロンプト間の弾性適応をコーディネートするデュアルヘッドコンパクト言語モデル。
論文参考訳（メタデータ） (2024-09-08T06:32:08Z)
Open-domain Implicit Format Control for Large Language Model Generation [52.83173553689678]
大規模言語モデル(LLM)における制御生成のための新しいフレームワークを提案する。本研究では、LLMがオープンドメイン、ワンショット制約に従う能力と、サンプル回答の形式を再現する能力について検討する。また、出力品質を劣化させることなく、LLMのオープンドメインフォーマット制御を強化する教師付き微調整のためのデータセット収集手法を開発した。
論文参考訳（メタデータ） (2024-08-08T11:51:45Z)
Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
PermLLM: Private Inference of Large Language Models within 3 Seconds under WAN [19.014325509263536]
ChatGPTは、大きな言語モデル(LLM)時代の到来を示す。 PermLLM は ChatGLM-6B モデルを約3s/token の速度で2パーティのプライベート推論を行う。
論文参考訳（メタデータ） (2024-05-29T04:06:50Z)
Preble: Efficient Distributed Prompt Scheduling for LLM Serving [8.706905652975554]
本稿では,プロンプト共有をターゲットとし最適化する最初の分散LLMサービスプラットフォームであるPrebleを提案する。我々は,新しいスケジューリングアルゴリズムと階層的スケジューリング機構を用いて,KV状態の再利用と計算負荷分散を協調的に最適化する分散スケジューリングシステムを構築した。 2つのオープンソースLCM上での実際のワークロードと要求到着パターンによるPrebleの評価は、平均レイテンシで1.5倍から14.5倍、p99レイテンシで2倍から10倍のSOTAサービスシステムより優れていることを示している。
論文参考訳（メタデータ） (2024-05-08T06:30:58Z)
Distributed Inference and Fine-tuning of Large Language Models Over The Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文参考訳（メタデータ） (2023-12-13T18:52:49Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Recommender AI Agent: Integrating Large Language Models for Interactive Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。 InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文参考訳（メタデータ） (2023-08-31T07:36:44Z)
AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文参考訳（メタデータ） (2023-08-07T16:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。