論文の概要: FIRST: Federated Inference Resource Scheduling Toolkit for Scientific AI Model Access
- arxiv url: http://arxiv.org/abs/2510.13724v1
- Date: Wed, 15 Oct 2025 16:28:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.76137
- Title: FIRST: Federated Inference Resource Scheduling Toolkit for Scientific AI Model Access
- Title(参考訳): FIRST:科学AIモデルアクセスのためのフェデレーション推論リソーススケジューリングツールキット
- Authors: Aditya Tanikanti, Benoit Côté, Yanfei Guo, Le Chen, Nickolaus Saint, Ryan Chard, Ken Raffenetti, Rajeev Thakur, Thomas Uram, Ian Foster, Michael E. Papka, Venkatram Vishwanath,
- Abstract要約: FIRSTは、既存のHPCインフラストラクチャ上のLarge Language Models(LLM)など、さまざまなAIモデルへのクラウドライクなアクセスを提供する。
システムは、プライベートでセキュアな環境でOpenAI準拠のAPIを介して、並列推論ワークロードを実行することができる。
- 参考スコア(独自算出の注目度): 7.480885391518904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the Federated Inference Resource Scheduling Toolkit (FIRST), a framework enabling Inference-as-a-Service across distributed High-Performance Computing (HPC) clusters. FIRST provides cloud-like access to diverse AI models, like Large Language Models (LLMs), on existing HPC infrastructure. Leveraging Globus Auth and Globus Compute, the system allows researchers to run parallel inference workloads via an OpenAI-compliant API on private, secure environments. This cluster-agnostic API allows requests to be distributed across federated clusters, targeting numerous hosted models. FIRST supports multiple inference backends (e.g., vLLM), auto-scales resources, maintains "hot" nodes for low-latency execution, and offers both high-throughput batch and interactive modes. The framework addresses the growing demand for private, secure, and scalable AI inference in scientific workflows, allowing researchers to generate billions of tokens daily on-premises without relying on commercial cloud infrastructure.
- Abstract(参考訳): 本稿では,分散ハイパフォーマンスコンピューティング(HPC)クラスタ間での推論・アズ・ア・サービスを実現するフレームワークであるFederated Inference Resource Scheduling Toolkit(FIRST)を提案する。
FIRSTは、既存のHPCインフラストラクチャ上のLarge Language Models(LLMs)のような、さまざまなAIモデルへのクラウドライクなアクセスを提供する。
Globus AuthとGlobus Computeを利用すると、研究者はプライベートでセキュアな環境でOpenAI準拠のAPIを通じて並列推論ワークロードを実行できる。
このクラスタに依存しないAPIにより、多数のホストされたモデルをターゲットにした、フェデレーションされたクラスタにリクエストを分散することができる。
FIRSTは複数の推論バックエンド(例えばvLLM)をサポートし、リソースの自動スケール、低レイテンシ実行のための"ホット"ノードのメンテナンス、高スループットバッチとインタラクティブモードの両方を提供する。
このフレームワークは、科学ワークフローにおけるプライベート、セキュア、スケーラブルなAI推論の需要の増加に対処し、研究者は商用クラウドインフラストラクチャに頼ることなく、毎日何十億ものトークンをオンプレミスで生成できる。
関連論文リスト
- LLM-based Multi-Agent Blackboard System for Information Discovery in Data Science [69.1690891731311]
従来のAIモデルのためのブラックボードアーキテクチャに着想を得た,新しいマルチエージェント通信パラダイムを提案する。
このフレームワークでは、中央エージェントが共有ブラックボードにリクエストをポストし、自律的な従属エージェントがその能力に基づいて応答する。
明示的なデータ発見を必要とする3つのベンチマークに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-09-30T22:34:23Z) - OpenCUA: Open Foundations for Computer-Use Agents [74.61449905487565]
コンピュータ・ユース・エージェント(CUA)としての視覚言語モデル
我々は,CUAデータと基盤モデルをスケールするためのオープンソースフレームワークであるOpenCUAを提案する。
我々のエンドツーエンドエージェントモデルはCUAベンチマークで強い性能を示す。
論文 参考訳(メタデータ) (2025-08-12T17:52:32Z) - Edge-Assisted Collaborative Fine-Tuning for Multi-User Personalized Artificial Intelligence Generated Content (AIGC) [38.59865959433328]
クラウドベースのソリューションは計算を助けるが、プライバシのリスク、パーソナライズ効率、通信コストに対処するのに不足することが多い。
本稿では,クラスタを意識した新しい階層型統合フレームワークを提案する。
このフレームワークは,スケーラブルなマルチユーザパーソナライズAIGCサービスの実用性を維持しつつ,収束の加速を実現する。
論文 参考訳(メタデータ) (2025-08-06T06:07:24Z) - Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。
既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。
本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文 参考訳(メタデータ) (2024-11-24T04:56:45Z) - Clustered FedStack: Intermediate Global Models with Bayesian Information
Criterion [8.478300563501035]
本稿では,Stacked Federated Learning(FedStack)フレームワークに基づいた,新しいClustered FedStackフレームワークを提案する。
ローカルクライアントはモデル予測と出力層重み付けをサーバに送信し、堅牢なグローバルモデルを構築します。
このグローバルモデルは、クラスタリングメカニズムを使用して出力層重みに基づいて、ローカルクライアントをクラスタ化する。
論文 参考訳(メタデータ) (2023-09-20T03:47:53Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。