論文の概要: GenTorrent: Scaling Large Language Model Serving with An Overley Network
- arxiv url: http://arxiv.org/abs/2504.20101v2
- Date: Wed, 30 Apr 2025 21:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.58882
- Title: GenTorrent: Scaling Large Language Model Serving with An Overley Network
- Title(参考訳): GenTorrent: オーバーレーネットワークによる大規模言語モデルのスケールアップ
- Authors: Fei Fang, Yifan Hua, Shengze Wang, Ruilin Zhou, Yi Liu, Chen Qian, Xiaoxue Zhang,
- Abstract要約: 本稿では,分散化コントリビュータの計算資源を活用するLLMサービスオーバーレイであるGenTorrentを提案する。
このような分散インフラストラクチャの実現に固有の4つの重要な研究課題を特定します。
この作業は、将来のAIサービス機能の民主化とスケーリングのための、新たな方向性の先駆者だと思います。
- 参考スコア(独自算出の注目度): 35.05892538683356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While significant progress has been made in research and development on open-source and cost-efficient large-language models (LLMs), serving scalability remains a critical challenge, particularly for small organizations and individuals seeking to deploy and test their LLM innovations. Inspired by peer-to-peer networks that leverage decentralized overlay nodes to increase throughput and availability, we propose GenTorrent, an LLM serving overlay that harnesses computing resources from decentralized contributors. We identify four key research problems inherent to enabling such a decentralized infrastructure: 1) overlay network organization; 2) LLM communication privacy; 3) overlay forwarding for resource efficiency; and 4) verification of serving quality. This work presents the first systematic study of these fundamental problems in the context of decentralized LLM serving. Evaluation results from a prototype implemented on a set of decentralized nodes demonstrate that GenTorrent achieves a latency reduction of over 50% compared to the baseline design without overlay forwarding. Furthermore, the security features introduce minimal overhead to serving latency and throughput. We believe this work pioneers a new direction for democratizing and scaling future AI serving capabilities.
- Abstract(参考訳): オープンソースおよび費用効率のよい大規模言語モデル(LLM)の研究と開発において、大きな進歩があったが、スケーラビリティを提供するのは重要な課題であり、特に小規模組織や個人がLLMのイノベーションを展開、テストしようとしている。
分散オーバレイノードを活用してスループットと可用性を向上させるピアツーピアネットワークに着想を得て,分散コントリビュータからコンピューティングリソースを活用するLLMサービスオーバレイであるGenTorrentを提案する。
このような分散インフラの実現に固有の4つの重要な研究課題を特定します。
1) オーバーレイネットワーク組織
2 LLM通信のプライバシー
3) 資源効率のためのオーバーレイ転送
4) サービス品質の検証。
この研究は、分散LDMサービスという文脈において、これらの基本的な問題を初めて体系的に研究した。
分散ノードに実装したプロトタイプによる評価結果から,GenTorrentはオーバーレイ転送を伴わないベースライン設計に比べて50%以上の遅延低減を実現していることがわかった。
さらに、セキュリティ機能は、レイテンシとスループットの提供に最小限のオーバーヘッドをもたらす。
この作業は、将来のAIサービス機能の民主化とスケーリングのための、新たな方向性の先駆者だと思います。
関連論文リスト
- LLM-Net: Democratizing LLMs-as-a-Service through Blockchain-based Expert Networks [1.3846014191157405]
本稿では,LLM(Large Language Models)をサービスとして民主化するブロックチェーンベースのフレームワークであるLLM-Netを紹介する。
LLM-Netは、集合計算資源と分散ドメインの専門知識を活用することで、様々な特定のドメインに対して微調整されたエキスパートモデルを導入している。
我々のシミュレーションはClaude 3.5 Sonnet, Llama 3.1, Grok-2, GPT-4oといった最先端のLCM上に構築され, サービス品質維持における評価に基づくメカニズムの有効性を検証した。
論文 参考訳(メタデータ) (2025-01-13T12:56:05Z) - DeServe: Towards Affordable Offline LLM Inference via Decentralization [42.8973830120059]
本稿では,大規模言語モデル(LLM)推論のための分散型オフラインサービスシステムの設計について述べる。
アイドルGPUリソースを利用することで,提案システムであるDeServeは,LLMへのアクセスを低コストで分散化する。
実験によると、DeServeは既存のサービスシステムのベースラインよりもスループットが6.7x-12.6倍向上している。
論文 参考訳(メタデータ) (2025-01-04T02:10:50Z) - AI Flow at the Network Edge [58.31090055138711]
AI Flowは、デバイス、エッジノード、クラウドサーバ間で利用可能な異種リソースを共同で活用することで、推論プロセスを合理化するフレームワークである。
この記事では、AI Flowのモチベーション、課題、原則を特定するためのポジションペーパーとして機能する。
論文 参考訳(メタデータ) (2024-11-19T12:51:17Z) - Decentralized AI: Permissionless LLM Inference on POKT Network [8.68822221491139]
POKT Networkの分散リモートプロシージャコールインフラストラクチャは、2020年にMainNetでローンチして以来、7400億のリクエストを突破している。
この論文は、このネットワークのオープンソースでパーミッションレスな設計が、モデル研究者、ハードウェアオペレータ、APIプロバイダ、ユーザ間のインセンティブをどのように調整するかを説明している。
論文 参考訳(メタデータ) (2024-05-30T19:50:07Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Evaluation of a blockchain-enabled resource management mechanism for
NGNs [0.0]
本稿では,ネットワークプロバイダ間の資源管理と交渉におけるブロックチェーン技術の利用について検討する。
リソース管理機構の実装はスマートコントラクト(SC)で記述され、テストベッドはそれぞれRaftとIBFTのコンセンサス機構を使用している。
論文 参考訳(メタデータ) (2022-11-01T13:40:26Z) - Decentralized Control with Graph Neural Networks [147.84766857793247]
分散コントローラを学習するグラフニューラルネットワーク(GNN)を用いた新しいフレームワークを提案する。
GNNは、自然分散アーキテクチャであり、優れたスケーラビリティと転送性を示すため、タスクに適している。
分散コントローラの学習におけるGNNの可能性を説明するために、群れとマルチエージェントパス計画の問題を検討する。
論文 参考訳(メタデータ) (2020-12-29T18:59:14Z) - When Deep Reinforcement Learning Meets Federated Learning: Intelligent
Multi-Timescale Resource Management for Multi-access Edge Computing in 5G
Ultra Dense Network [31.274279003934268]
まず,ブロックチェーンとAIを5Gエッジコンピューティングネットワークに統合した,インテリジェントな超高密度エッジコンピューティング(I-UDEC)フレームワークを提案する。
実時間および低オーバーヘッド計算のオフロード決定と資源配分戦略を実現するために,新しい2段階の深層強化学習法(textit2Ts-DRL)を設計する。
提案アルゴリズムはタスク実行時間を最大31.87%削減できる。
論文 参考訳(メタデータ) (2020-09-22T15:08:00Z) - Graph Neural Networks for Decentralized Controllers [171.6642679604005]
自律エージェントで構成される動的システムは、ロボット工学、スマートグリッド、スマートシティなど、多くの関連する問題に現れる。
最適な集中型コントローラは容易に利用できるが、スケーラビリティと実用的な実装の面で制限に直面している。
グラフニューラルネットワーク(GNN)を用いて,データから分散制御系を学習するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-23T13:51:18Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。