論文の概要: Heterogeneous Computing: The Key to Powering the Future of AI Agent Inference
- arxiv url: http://arxiv.org/abs/2601.22001v1
- Date: Thu, 29 Jan 2026 17:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.029053
- Title: Heterogeneous Computing: The Key to Powering the Future of AI Agent Inference
- Title(参考訳): 不均一コンピューティング:AIエージェント推論の未来を支える鍵
- Authors: Yiren Zhao, Junyi Liu,
- Abstract要約: OI(Operational Intensity)とCF(Capacity Footprint)の2つの指標を紹介します。
OI/CFは、長期のコンテキストKVキャッシュによって、メモリバインドの高いデコードを実現するため、劇的にシフトする可能性がある。
さらに,OI/CFの進化に適応するための基礎として,エージェント-ハードウェア共設計,ひとつのシステム内の複数の推論アクセラレータ,高帯域幅,大容量メモリ分散を仮定する。
- 参考スコア(独自算出の注目度): 12.811151742829137
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI agent inference is driving an inference heavy datacenter future and exposes bottlenecks beyond compute - especially memory capacity, memory bandwidth and high-speed interconnect. We introduce two metrics - Operational Intensity (OI) and Capacity Footprint (CF) - that jointly explain regimes the classic roofline analysis misses, including the memory capacity wall. Across agentic workflows (chat, coding, web use, computer use) and base model choices (GQA/MLA, MoE, quantization), OI/CF can shift dramatically, with long context KV cache making decode highly memory bound. These observations motivate disaggregated serving and system level heterogeneity: specialized prefill and decode accelerators, broader scale up networking, and decoupled compute-memory enabled by optical I/O. We further hypothesize agent-hardware co design, multiple inference accelerators within one system, and high bandwidth, large capacity memory disaggregation as foundations for adaptation to evolving OI/CF. Together, these directions chart a path to sustain efficiency and capability for large scale agentic AI inference.
- Abstract(参考訳): AIエージェント推論は、複雑なデータセンタの将来を推し進めており、特にメモリ容量、メモリ帯域幅、高速な相互接続といった、計算以上のボトルネックを露呈している。
我々は,古典的な屋根面解析ミスの状況を説明するために,OI(Operational Intensity)とCF(Capacity Footprint)という2つの指標を紹介した。
エージェントワークフロー(チャット、コーディング、Web利用、コンピュータ利用)とベースモデル選択(GQA/MLA、MoE、量子化)を横切ると、OI/CFは劇的にシフトし、長いコンテキストのKVキャッシュにより、高いメモリバインドを実現する。
これらの観察は、分離されたサービスとシステムレベルの不均一性、例えば、特別なプリフィルとデコードアクセラレータ、より広いスケールのネットワーク、光学I/Oによって実現されたデカップリングされた計算メモリを動機付けている。
我々はさらに,OI/CFの進化に適応するための基盤として,エージェント・ハードウェア・コデザイン,ひとつのシステム内の複数の推論アクセラレータ,高帯域幅,大容量メモリ分散を仮定する。
これらの方向は共に、大規模エージェントAI推論の効率性と能力を維持するための道筋を示す。
関連論文リスト
- Scaling Intelligence: Designing Data Centers for Next-Gen Language Models [0.6168147650666682]
GPT-4のような1.8兆のパラメータを持つ大規模言語モデル(LLM)は、データセンターアーキテクチャの根本的な再考を要求する。
我々の研究は、FLOPS、帯域幅と容量、複数のネットワークトポロジを共同で探求する包括的な協調設計フレームワークを提供する。
我々は、重なり合う計算と通信の利点を定量化し、ハードウェアアクセラレーションされた集合体を活用し、スケールアウト領域を広げ、メモリ容量を増大させる。
論文 参考訳(メタデータ) (2025-06-17T22:29:37Z) - Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」
この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文 参考訳(メタデータ) (2025-04-28T08:12:30Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving [2.7309692684728613]
大規模言語モデル(LLM)は通常、多数のデバイスで構成されるGPU/NPUのクラスタから提供される。
以前の作業では、計算との通信を重複させることでこの問題に対処していたが、これらの操作間のデータ依存関係のために厳しい制限が課された。
我々は,AIアクセラレータのオンチップキャッシュにオフチップメモリからモデルウェイトとKVキャッシュをプリセットする新しいフレームワークであるPreSERVEを提案する。
論文 参考訳(メタデータ) (2025-01-14T15:14:10Z) - Efficient Heterogeneous Large Language Model Decoding with Model-Attention Disaggregation [15.35494431928751]
トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて顕著なパフォーマンスを示すと同時に、現実のサービスにおいて大きな課題をもたらす。
LLMデコーディングの効率を高めるために,モデルアテンションデアグリゲーションを導入する。
分散ヘテロジニアスクラスタにモデルアテンションデアグリゲーションを組み込んだLLM推論システムであるLaminaを開発し,展開する。
論文 参考訳(メタデータ) (2024-05-03T02:15:15Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。