Fugu-MT 論文翻訳(概要): AIvailable: A Software-Defined Architecture for LLM-as-a-Service on Heterogeneous and Legacy GPUs

論文の概要: AIvailable: A Software-Defined Architecture for LLM-as-a-Service on Heterogeneous and Legacy GPUs

arxiv url: http://arxiv.org/abs/2511.11621v1
Date: Thu, 06 Nov 2025 14:19:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-23 18:31:12.305679
Title: AIvailable: A Software-Defined Architecture for LLM-as-a-Service on Heterogeneous and Legacy GPUs
Title（参考訳）: AIvailable: 異種およびレガシーGPU上でのLLM-as-a-Serviceのためのソフトウェア定義アーキテクチャ
Authors: Pedro Antunes, Ana Rita Ortigoso, Gabriel Vieira, Daniel Fuentes, Luís Frazão, Nuno Costa, António Pereira,
Abstract要約: 低コストで高可用性のLLM-as-a-Service(LLM)プラットフォームであるAIvailableを紹介します。ソフトウェア定義のアプローチを使用して、異種およびレガシGPUノード上でLLMを実行する。統合されたクライアントインターフェースを備えており、すべてのデプロイされたLLMとのシームレスなインタラクションを可能にします。
参考スコア（独自算出の注目度）: 0.5863360388454261
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rise of Large Language Models (LLM) has increased the need for scalable, high-performance inference systems, yet most existing frameworks assume homogeneous, resource-rich hardware, often unrealistic in academic, or resource-constrained settings. We introduce AIvailable, a low-cost, highly available LLM-as-a-Service (LLMaaS) platform, that uses a software-defined approach for running LLMs across heterogeneous and legacy GPU nodes, including NVIDIA and AMD devices, with a focus on fully utilizing each node's VRAM. AIvailable operates as a fully GPU-accelerated inference without CPU fallbacks, featuring a unified client interface that allows seamless interaction with all deployed LLMs through a single logical unit. The architecture comprises four main components: the Client Interface for user access, the Service Frontend for secure request routing and load balancing, the SDAI Controller for orchestration, deployment, and monitoring, and the Service Backend of heterogeneous GPU nodes executing workloads. By abstracting GPU-specific details and providing dynamic, VRAM-aware allocation and reallocation of models, AIvailable ensures efficient use of resources and resilience against failures or workload fluctuations. Targeting academic labs, private companies, and other constrained organizations, it supports diverse open LLMs helping democratize generative AI through the repurposing of legacy GPUs.
Abstract（参考訳）: 大規模言語モデル(LLM)の台頭は、スケーラブルで高性能な推論システムの必要性を増大させているが、既存のフレームワークの多くは、均質でリソースに富んだハードウェアを前提としている。 AIvailableは低コストで高可用性のLLM-as-a-Service(LLMaaS)プラットフォームで、NVIDIAやAMDデバイスを含む異種およびレガシGPUノードでLSMを実行するためのソフトウェア定義のアプローチを使用し、各ノードのVRAMを完全に活用することに重点を置いている。 AIvailableは、CPUのフォールバックなしで完全にGPUアクセラレーションされた推論として動作し、単一の論理ユニットを介してデプロイされたすべてのLLMとのシームレスなインタラクションを可能にする統一されたクライアントインターフェースを備えている。アーキテクチャには、ユーザアクセスのためのClient Interface、セキュアなリクエストルーティングとロードバランシングのためのService Frontend、オーケストレーション、デプロイメント、監視のためのSDAI Controller、ワークロードを実行する異種GPUノードのService Backendの4つの主要コンポーネントが含まれている。 GPU固有の詳細を抽象化し、モデルの動的でVRAM対応のアロケーションとリアロケーションを提供することで、AIvailableはリソースの効率的な使用と障害やワークロードの変動に対するレジリエンスを保証する。学術研究所、民間企業、その他の制約された組織をターゲットとして、レガシGPUの再調達を通じて生成AIの民主化を支援する、さまざまなオープンLLMをサポートする。

関連論文リスト

FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems [39.33711841865621]
FlashInfer-Benchは、カーネル生成、ベンチマーク、デプロイを接続するフレームワークである。実際のサービストレースに基づいて構築されたFlashInfer-Benchには、キュレートされたデータセット、堅牢な正確性とパフォーマンスを意識したベンチマークフレームワーク、公開リーダボードが含まれている。我々は FlashInfer-Bench を用いて LLM エージェントの性能と限界を評価し,GPU プログラム言語間のトレードオフを比較し,将来のエージェント設計に対する洞察を提供する。
論文参考訳（メタデータ） (2026-01-01T06:18:53Z)
Enabling Disaggregated Multi-Stage MLLM Inference via GPU-Internal Scheduling and Resource Sharing [16.063514680699576]
MLLM(Multimodal large language model)は、3段階のパイプラインを通して視覚的理解を拡張する。マルチモーダル前処理、特にビデオデコードがタイム・ツー・ファースト・トーケン(TTFT)を支配している我々は、エンドツーエンドのMLLMパイプラインを共同で最適化する2つの補完設計であるFlashCodecとUnifiedServeを紹介する。
論文参考訳（メタデータ） (2025-12-19T13:40:13Z)
GPU-Virt-Bench: A Comprehensive Benchmarking Framework for Software-Based GPU Virtualization Systems [0.0]
GPU-Virt-Benchは、56のパフォーマンスメトリクスにわたるGPU仮想化システムを評価する包括的なベンチマークフレームワークである。 HAMIコア, BUD-FCSP, シミュレーションMIGベースラインの評価により, フレームワークの有用性を実証する。
論文参考訳（メタデータ） (2025-11-26T09:42:05Z)
LLMServingSim2.0: A Unified Simulator for Heterogeneous Hardware and Serving Techniques in LLM Infrastructure [4.382902234869111]
本稿では,大規模LLMサービスシステムにおける異種ハードウェアの探索を目的としたシステムシミュレータLLMServingSim2.0を紹介する。 1) ハードウェアモデルをシステムレベルのシミュレータに統合することは、明確な抽象化が欠如していることから、非自明な問題であり、(2) 既存のシミュレータは、サービス技術の限られたサブセットしかサポートしていない。
論文参考訳（メタデータ） (2025-11-10T15:47:53Z)
Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。 BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文参考訳（メタデータ） (2025-11-04T01:15:44Z)
Scalable GPU-Based Integrity Verification for Large Machine Learning Models [4.301162531343759]
我々は、CPUとGPUプラットフォーム間の整合性保護を標準化することで、分散機械学習を強化するセキュリティフレームワークを提案する。提案手法は,GPUアクセラレータ上での大規模なMLモデル実行と直接的に整合性検証を行う。私たちは、基盤となるCPUやGPUインフラストラクチャに関係なく、エンタープライズチームがデプロイできるハードウェアに依存しない基盤を提供します。
論文参考訳（メタデータ） (2025-10-27T23:45:21Z)
xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。 xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。 xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文参考訳（メタデータ） (2025-10-16T13:53:47Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
Demystifying AI Platform Design for Distributed Inference of Next-Generation LLM models [8.02264001053969]
大きな言語モデル(LLM)は、広範囲のアプリケーションで顕著なパフォーマンスを示しており、しばしば人間の専門家よりも優れています。 LLMの継続的なイノベーションが最適化に役立ち、モデルアーキテクチャはブレークネックスピードで進化しているため、サービスレベルオブジェクト(SLO)を満たすためのハードウェア要件は、オープンな研究課題のままである。我々は、多様なLLMモデルアーキテクチャとAIプラットフォーム設計パラメータの関係を効率的にナビゲートする分析ツールGenZを提案する。
論文参考訳（メタデータ） (2024-06-03T18:00:50Z)
Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文参考訳（メタデータ） (2023-10-04T20:27:20Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。