論文の概要: FIRST: Federated Inference Resource Scheduling Toolkit for Scientific AI Model Access
- arxiv url: http://arxiv.org/abs/2510.13724v1
- Date: Wed, 15 Oct 2025 16:28:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.76137
- Title: FIRST: Federated Inference Resource Scheduling Toolkit for Scientific AI Model Access
- Title(参考訳): FIRST:科学AIモデルアクセスのためのフェデレーション推論リソーススケジューリングツールキット
- Authors: Aditya Tanikanti, Benoit Côté, Yanfei Guo, Le Chen, Nickolaus Saint, Ryan Chard, Ken Raffenetti, Rajeev Thakur, Thomas Uram, Ian Foster, Michael E. Papka, Venkatram Vishwanath,
- Abstract要約: FIRSTは、既存のHPCインフラストラクチャ上のLarge Language Models(LLM)など、さまざまなAIモデルへのクラウドライクなアクセスを提供する。
システムは、プライベートでセキュアな環境でOpenAI準拠のAPIを介して、並列推論ワークロードを実行することができる。
- 参考スコア(独自算出の注目度): 7.480885391518904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the Federated Inference Resource Scheduling Toolkit (FIRST), a framework enabling Inference-as-a-Service across distributed High-Performance Computing (HPC) clusters. FIRST provides cloud-like access to diverse AI models, like Large Language Models (LLMs), on existing HPC infrastructure. Leveraging Globus Auth and Globus Compute, the system allows researchers to run parallel inference workloads via an OpenAI-compliant API on private, secure environments. This cluster-agnostic API allows requests to be distributed across federated clusters, targeting numerous hosted models. FIRST supports multiple inference backends (e.g., vLLM), auto-scales resources, maintains "hot" nodes for low-latency execution, and offers both high-throughput batch and interactive modes. The framework addresses the growing demand for private, secure, and scalable AI inference in scientific workflows, allowing researchers to generate billions of tokens daily on-premises without relying on commercial cloud infrastructure.
- Abstract(参考訳): 本稿では,分散ハイパフォーマンスコンピューティング(HPC)クラスタ間での推論・アズ・ア・サービスを実現するフレームワークであるFederated Inference Resource Scheduling Toolkit(FIRST)を提案する。
FIRSTは、既存のHPCインフラストラクチャ上のLarge Language Models(LLMs)のような、さまざまなAIモデルへのクラウドライクなアクセスを提供する。
Globus AuthとGlobus Computeを利用すると、研究者はプライベートでセキュアな環境でOpenAI準拠のAPIを通じて並列推論ワークロードを実行できる。
このクラスタに依存しないAPIにより、多数のホストされたモデルをターゲットにした、フェデレーションされたクラスタにリクエストを分散することができる。
FIRSTは複数の推論バックエンド(例えばvLLM)をサポートし、リソースの自動スケール、低レイテンシ実行のための"ホット"ノードのメンテナンス、高スループットバッチとインタラクティブモードの両方を提供する。
このフレームワークは、科学ワークフローにおけるプライベート、セキュア、スケーラブルなAI推論の需要の増加に対処し、研究者は商用クラウドインフラストラクチャに頼ることなく、毎日何十億ものトークンをオンプレミスで生成できる。
関連論文リスト
- OFA-MAS: One-for-All Multi-Agent System Topology Design based on Mixture-of-Experts Graph Generative Models [57.94189874119267]
マルチエージェントシステム(MAS)は複雑な問題を解決するための強力なパラダイムを提供する。
現在のグラフ学習に基づく設計手法は、しばしば「1対1」のパラダイムに準拠している。
自然言語で記述されたタスクに対して適応的な協調グラフを生成する一対一のフレームワークOFA-TADを提案する。
論文 参考訳(メタデータ) (2026-01-19T12:23:44Z) - One-Shot Hierarchical Federated Clustering [51.490181220883905]
本稿では,効率的な階層型クラスタリングフレームワークを提案する。
クライアント-エンドの分散探索とサーバ-エンドの分散アグリゲーションを実行する。
クライアント間の複雑なクラスタ分布を効率的に探索できることが判明した。
論文 参考訳(メタデータ) (2026-01-10T02:58:33Z) - Federated Learning Framework for Scalable AI in Heterogeneous HPC and Cloud Environments [0.1805840413757548]
我々は、HPCとクラウドの混在する環境を効率的に動かすために構築された連合学習フレームワークを提案する。
本システムは,モデル精度とデータプライバシを維持しつつ,システムヘット・エロジニティ,通信オーバーヘッド,リソーススケジューリングといった重要な課題に対処する。
論文 参考訳(メタデータ) (2025-11-22T18:39:25Z) - LLM-based Multi-Agent Blackboard System for Information Discovery in Data Science [69.1690891731311]
従来のAIモデルのためのブラックボードアーキテクチャに着想を得た,新しいマルチエージェント通信パラダイムを提案する。
このフレームワークでは、中央エージェントが共有ブラックボードにリクエストをポストし、自律的な従属エージェントがその能力に基づいて応答する。
明示的なデータ発見を必要とする3つのベンチマークに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-09-30T22:34:23Z) - OpenCUA: Open Foundations for Computer-Use Agents [74.61449905487565]
コンピュータ・ユース・エージェント(CUA)としての視覚言語モデル
我々は,CUAデータと基盤モデルをスケールするためのオープンソースフレームワークであるOpenCUAを提案する。
我々のエンドツーエンドエージェントモデルはCUAベンチマークで強い性能を示す。
論文 参考訳(メタデータ) (2025-08-12T17:52:32Z) - Edge-Assisted Collaborative Fine-Tuning for Multi-User Personalized Artificial Intelligence Generated Content (AIGC) [38.59865959433328]
クラウドベースのソリューションは計算を助けるが、プライバシのリスク、パーソナライズ効率、通信コストに対処するのに不足することが多い。
本稿では,クラスタを意識した新しい階層型統合フレームワークを提案する。
このフレームワークは,スケーラブルなマルチユーザパーソナライズAIGCサービスの実用性を維持しつつ,収束の加速を実現する。
論文 参考訳(メタデータ) (2025-08-06T06:07:24Z) - Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。
既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。
本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文 参考訳(メタデータ) (2024-11-24T04:56:45Z) - Clustered FedStack: Intermediate Global Models with Bayesian Information
Criterion [8.478300563501035]
本稿では,Stacked Federated Learning(FedStack)フレームワークに基づいた,新しいClustered FedStackフレームワークを提案する。
ローカルクライアントはモデル予測と出力層重み付けをサーバに送信し、堅牢なグローバルモデルを構築します。
このグローバルモデルは、クラスタリングメカニズムを使用して出力層重みに基づいて、ローカルクライアントをクラスタ化する。
論文 参考訳(メタデータ) (2023-09-20T03:47:53Z) - The MIT Supercloud Workload Classification Challenge [10.458111248130944]
本稿では,MIT Supercloudデータセットに基づくワークロード分類の課題について述べる。
この課題の目標は、計算ワークロードの分析におけるアルゴリズムのイノベーションを促進することである。
論文 参考訳(メタデータ) (2022-04-12T14:28:04Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。