Fugu-MT 論文翻訳(概要): KAIROS: Stateful, Context-Aware Power-Efficient Agentic Inference Serving

論文の概要: KAIROS: Stateful, Context-Aware Power-Efficient Agentic Inference Serving

arxiv url: http://arxiv.org/abs/2604.16682v1
Date: Fri, 17 Apr 2026 20:39:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 14:04:47.803678
Title: KAIROS: Stateful, Context-Aware Power-Efficient Agentic Inference Serving
Title（参考訳）: KAIROS: ステートフルでコンテキスト対応の強力なエージェント推論
Authors: Yichao Yuan, Mosharaf Chowdhury, Nishil Talati,
Abstract要約: KAIROSは、エージェントAIサービスのためのコンテキスト対応パワー最適化システムである。パフォーマンス目標のスラッシングや保存を回避しながら、メモリヘッドルームが存在する時に電力を節約する。性能目標を満たしながら平均27%(最大39.8%)の消費電力削減を実現している。
参考スコア（独自算出の注目度）: 4.817676761376181
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Power has become a central bottleneck for AI inference. This problem is becoming more urgent as agentic AI emerges as a major workload class, yet prior power-management techniques focus almost entirely on single-turn LLM serving. Our analysis shows that agentic serving behaves fundamentally differently: each request carries long-lived context that evolves across tool-interleaved turns, and lowering GPU frequency can push the system into a thrashing regime where memory pressure sharply worsens both performance and power efficiency. These observations show that power optimization for agentic serving requires rethinking. We present KAIROS, a context-aware power optimization system for agentic AI serving. KAIROS uses agent context as a first-class control signal to jointly manage GPU frequency, per-instance concurrency, and multi-instance request placement. This enables KAIROS to save power when memory headroom exists while avoiding thrashing and preserving performance targets. At a high level, KAIROS tracks requests at agent granularity, adapts local control to context growth and agent progress, and routes agents across instances to jointly improve power efficiency and memory stability. Evaluated across diverse software and data engineering agentic tasks, KAIROS achieves an average of 27% (up to 39.8%) power reduction while meeting the performance targets.
Abstract（参考訳）: AI推論では、電力が中心的なボトルネックになっている。エージェントAIが主要なワークロードクラスとして出現するにつれて、この問題はより緊急になってきている。それぞれのリクエストは、ツールをインターリーブしたターンで進化する長時間のコンテキストを持ち、GPUの周波数を下げることで、メモリ圧力がパフォーマンスと電力効率の両方を著しく悪化させるスラッシングレジームへとシステムを押し上げることができる。これらの結果から, エージェントサービスのための電力最適化には再考が必要であることが示唆された。エージェントAIサービスのためのコンテキスト対応パワー最適化システムであるKAIROSを提案する。 KAIROSはエージェントコンテキストを第1級制御信号として使用し、GPU周波数、インスタンスごとの並行処理、マルチインスタンス要求配置を共同で管理する。これにより、KAIROSは、メモリヘッドルームが存在するときに、スラッシングやパフォーマンス目標の保存を回避しながら、電力を節約できる。高いレベルでは、KAIROSはエージェントの粒度の要求を追跡し、コンテキストの成長とエージェントの進捗をローカルに制御し、インスタンスをまたいでエージェントをルーティングすることで、電力効率とメモリ安定性を共同で改善する。多様なソフトウェアおよびデータエンジニアリングエージェントタスクで評価され、KAIROSはパフォーマンス目標を満たしながら平均27%(最大39.8%)の消費電力削減を達成する。

関連論文リスト

When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making [68.12864562049957]
身体ロボットシステムは、高レベルの推論をサポートするために、大規模言語モデル(LLM)ベースのエージェントにますます依存している。エージェントはいつ、いつ、いつ行動すべきか? 本稿では,エンボディエージェントのリソース・アウェア・オーケストレーションのための階層的なフレームワークであるRARRL(Resource-Aware Reasoning via Reinforcement Learning)を提案する。
論文参考訳（メタデータ） (2026-03-17T15:38:50Z)
AgentCgroup: Understanding and Controlling OS Resources of AI Agents [2.8139711959925244]
AIエージェントは、サンドボックスコンテナ内でさまざまなツールコールを実行するマルチテナントクラウド環境にますますデプロイされている。サンドボックス型AI符号化エージェントにおけるOSレベルの資源動態の系統的特徴について述べる。予備評価は, マルチテナント分離の改善と資源廃棄物の削減を実証する。
論文参考訳（メタデータ） (2026-02-10T02:37:42Z)
Learning to Share: Selective Memory for Efficient Parallel Agentic Systems [49.78267008828593]
エージェントシステムは、反復的に推論する複数のエージェントを調整することで複雑なタスクを解決し、ツールを呼び出し、中間結果を交換する。最近のアプローチでは、さまざまな推論の軌跡を探索するために、複数のエージェントチームが並行して運用されている。我々は並列エージェントフレームワークのための学習された共有メモリ機構であるLearning to Share (LTS)を提案する。
論文参考訳（メタデータ） (2026-02-05T18:20:21Z)
AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent [57.10083973844841]
AgentArkは、マルチエージェントダイナミクスを単一のモデルの重みに蒸留する新しいフレームワークである。各種モデル,タスク,スケーリング,シナリオの3つの階層的蒸留戦略について検討する。シミュレーションからトレーニングへ計算の負担をシフトさせることで、蒸留されたモデルは、複数のエージェントの強い推論と自己補正性能を示しながら、一つのエージェントの効率を保ちます。
論文参考訳（メタデータ） (2026-02-03T19:18:28Z)
SCOPE: Prompt Evolution for Enhancing Agent Effectiveness [53.75986399936395]
大規模言語モデル(LLM)エージェントは、大規模で動的なコンテキストを生成する環境にますますデプロイされている。エージェントはこのコンテキストにアクセスできますが、静的なプロンプトには効果的に管理するメカニズムがありません。 textbfSCOPE (Self-evolving Context Optimization via Prompt Evolution) を導入する。本稿では,戦術的特異性(即時誤りの解消)と戦略的汎用性(長期原則の進化)のバランスをとるデュアルストリーム機構を提案する。
論文参考訳（メタデータ） (2025-12-17T12:25:05Z)
Astraea: A State-Aware Scheduling Engine for LLM-Powered Agents [12.884297990127985]
Astraeaは、最適化をローカルセグメントからグローバルリクエストライフサイクルに移行するように設計されたサービスエンジンである。これは、リクエストの履歴状態と将来の予測を統合する、ステートアウェアで階層的なスケジューリングアルゴリズムを採用している。 Astraea は平均 JCT を基準法に比べて 25.5% 削減する。
論文参考訳（メタデータ） (2025-12-16T06:55:10Z)
A CPU-Centric Perspective on Agentic AI [8.417523196411574]
Agentic AIフレームワークは、Web検索、Pythonインタプリタ、コンテキストデータベースなど、外部ツールに埋め込まれた意思決定オーケストレータを追加する。本稿では,エージェントAIワークロードが導入するシステムのボトルネックをCPU中心の観点から特徴づけ,理解することを目的とする。
論文参考訳（メタデータ） (2025-11-01T23:46:44Z)
Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control [72.43808515668947]
モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentを紹介する。 Hi-Agentは高レベルの推論モデルと、共同最適化された低レベルのアクションモデルを備えている。 Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで、新しいState-Of-The-Art(SOTA)87.9%タスクの成功率を達成した。
論文参考訳（メタデータ） (2025-10-16T07:38:21Z)
Agent.xpu: Efficient Scheduling of Agentic LLM Workloads on Heterogeneous SoC [11.82567747365518]
本稿では,メモリ統一ヘテロジニアス SOC 上でのエージェント LLM ワークロードの効率的なサービスシステムである Agent.xpu について紹介する。 Agent.xpuは専用のオフラインプロファイリングにより、アフィニティ誘導弾性加速器マッピングのためにモデルカーネルを融合・チャンクする異種実行グラフを最初に構築した。実行時に、そのオンラインスケジューラは、粒度の細かいカーネルレベルのプリエンプションを可能にし、リアクティブタスクの応答性を保証する。
論文参考訳（メタデータ） (2025-06-30T16:50:48Z)
Distributed-Training-and-Execution Multi-Agent Reinforcement Learning for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文参考訳（メタデータ） (2022-12-15T17:01:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。