論文の概要: Latency and Cost of Multi-Agent Intelligent Tutoring at Scale
- arxiv url: http://arxiv.org/abs/2604.24110v1
- Date: Mon, 27 Apr 2026 07:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.780725
- Title: Latency and Cost of Multi-Agent Intelligent Tutoring at Scale
- Title(参考訳): 大規模マルチエージェント・インテリジェント・チュータのレイテンシとコスト
- Authors: Iizalaarab Elhaimeur, Nikos Chrisochoides,
- Abstract要約: ITASは、Gemini 2.5 FlashとGoogle Vertex AI上に構築された4エージェントのチューターシステムである。
Priority PayGoは、フルロード範囲にわたってフラットなサブ-4秒の応答時間を維持する。
Standard PayGoは教室規模で大幅に劣化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent LLM tutoring systems improve response quality through agent specialization, but each student query triggers several concurrent API calls whose latencies compound through a parallel-phase maximum effect that single-agent systems do not face. We instrument ITAS, a four-agent tutoring system built on Gemini 2.5 Flash and Google Vertex AI, across three throughput tiers (Standard PayGo, Priority PayGo, and Provisioned Throughput) and eleven concurrency levels up to 50 simultaneous users, producing over 3,000 requests drawn from a live graduate STEM deployment. Priority PayGo maintains flat sub-4-second response times across the full load range; Standard PayGo degrades substantially under classroom-scale concurrency; and Provisioned Throughput delivers the lowest latency at low concurrency but saturates its reserved capacity above approximately 20 concurrent users. Cost analysis places both pay-per-token tiers well below the price of a STEM textbook per student per semester under a worst-case usage ceiling. Provisioned Throughput, expensive under continuous provisioning, becomes cost-competitive for institutions that can predict and concentrate their traffic toward high utilization. These results provide concrete tier-selection guidance across deployment scales from a single seminar to a university-wide rollout.
- Abstract(参考訳): マルチエージェントLLMチューリングシステムはエージェントの特殊化によって応答品質を向上させるが、各学生クエリは、単一エージェントシステムが直面しない並列位相最大効果によってレイテンシが複合する複数の同時API呼び出しをトリガーする。
Gemini 2.5 FlashとGoogle Vertex AIをベースとして構築された4エージェントのトレーニングシステムであるITASを,3つのスループット層(Standard PayGo, Priority PayGo, Provisioned Throughput)にまたがって運用し,最大50人の同時ユーザを同時実行し,3000以上のリクエストを実運用のSTEMデプロイメントから生成します。
プライオリティ PayGoはフルロード範囲にわたってフラットなサブ-4秒の応答時間を維持しており、Standard PayGoは教室スケールの並行処理で大幅に劣化している。
コスト分析では、学生1学期あたりのSTEM教科書の価格よりはるかに低い料金を、最悪の利用天井の下で支払うことができる。
供給されたスループプットは、継続的な供給の下で高価であり、高い利用に向けてトラフィックを予測し集中できる機関にとって、コスト競争力を持つ。
これらの結果は,1つのセミナーから大学全体のロールアウトまで,展開規模の具体的な階層選択のガイダンスを提供する。
関連論文リスト
- AGNT2: Autonomous Agent Economies on Interaction-Optimized Layer 2 Infrastructure [2.173754130697989]
AGNT2はエージェントとマイクロサービスの協調のために構築された3層スタックである。
AGNT2はエージェントとマイクロサービスの協調のために構築された3層スタックである。
論文 参考訳(メタデータ) (2026-04-22T22:33:59Z) - MAS$^2$: Self-Generative, Self-Configuring, Self-Rectifying Multi-Agent Systems [40.44248136759827]
マルチエージェントシステムを自律的に設計するマルチエージェントシステムであるMAS$2$を紹介する。
MAS$2$は、最先端のMASに対して最大19.6%のパフォーマンス向上を達成する。
論文 参考訳(メタデータ) (2025-09-29T06:20:10Z) - IPR: Intelligent Prompt Routing with User-Controlled Quality-Cost Trade-offs [19.658944117970137]
textbfIngent textbfPrompt textbfRouting frameworkは、予測応答品質とユーザ指定許容レベルに基づいて最適なモデルを動的に選択する。
IPRは43.9%のコスト削減を実現し、クロード家の最強モデルに匹敵する品質を維持している。
論文 参考訳(メタデータ) (2025-09-08T01:46:27Z) - Dynamic Speculative Agent Planning [57.630218933994534]
大規模な言語モデルベースのエージェントは、遅延の禁止と推論コストのために、重要なデプロイメント課題に直面している。
本稿では,オンライン強化学習フレームワークである動的投機計画(Dynamic Speculative Planning, DSP)を紹介する。
2つの標準エージェントベンチマークの実験では、DSPは高速加速法に匹敵する効率を達成し、総コストを30%削減し、不要コストを60%まで削減している。
論文 参考訳(メタデータ) (2025-09-02T03:34:36Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文 参考訳(メタデータ) (2025-02-09T02:26:15Z) - ConServe: Fine-Grained GPU Harvesting for LLM Online and Offline Co-Serving [61.35068981176018]
ConServeは、高いスループットと強力なオンラインレイテンシ保証を実現する大規模言語モデル(LLM)サービスシステムである。
我々は,ConServeが平均2.2$times$高スループットを実現し,オンラインサービステールのレイテンシを最先端システムと比較して平均2.9$times$削減することを示した。
論文 参考訳(メタデータ) (2024-10-02T04:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。