論文の概要: Challenges and Research Directions for Large Language Model Inference Hardware
- arxiv url: http://arxiv.org/abs/2601.05047v2
- Date: Wed, 14 Jan 2026 20:37:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 13:33:41.226263
- Title: Challenges and Research Directions for Large Language Model Inference Hardware
- Title(参考訳): 大規模言語モデル推論ハードウェアの課題と研究の方向性
- Authors: Xiaoyu Ma, David Patterson,
- Abstract要約: 最近のAIトレンドによってさらに悪化している主な課題は、計算よりもメモリと相互接続である。
ハイバンド幅はFlashのような帯域幅で10倍のメモリ容量を持ち、プロセッシング・ナアー・メモリと高メモリ帯域で3Dメモリ・ロジック・スタックリングを行う。
スピードアップ通信への低レイテンシ相互接続。
- 参考スコア(独自算出の注目度): 7.216091397339619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) inference is hard. The autoregressive Decode phase of the underlying Transformer model makes LLM inference fundamentally different from training. Exacerbated by recent AI trends, the primary challenges are memory and interconnect rather than compute. To address these challenges, we highlight four architecture research opportunities: High Bandwidth Flash for 10X memory capacity with HBM-like bandwidth; Processing-Near-Memory and 3D memory-logic stacking for high memory bandwidth; and low-latency interconnect to speedup communication. While our focus is datacenter AI, we also review their applicability for mobile devices.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論は難しい。
基盤となるTransformerモデルの自己回帰デコードフェーズは、LPM推論をトレーニングと根本的に異なるものにしている。
最近のAIトレンドによってさらに悪化している主な課題は、計算よりもメモリと相互接続である。
これらの課題に対処するために、HBMのような帯域幅を持つ10倍のメモリ容量を持つ高帯域フラッシュ、高メモリ帯域を持つ3次元メモリ論理スタックリング、通信の高速化のための低レイテンシ相互接続の4つのアーキテクチャ研究機会を強調した。
私たちの焦点はデータセンターAIですが、モバイルデバイスへの適用性についてもレビューしています。
関連論文リスト
- MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference [2.9302211589186244]
大規模言語モデル(LLM)は自然言語処理を変換し、機械が人間のようなテキストを生成し、意味のある会話を行うことを可能にする。
計算と記憶能力の発達はムーアの法則の廃止によってさらに悪化している。
コンピュート・イン・メモリ(CIM)技術は、メモリ内でアナログ計算を直接実行することにより、AI推論を加速するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-12T16:57:58Z) - Efficient and accurate neural field reconstruction using resistive memory [52.68088466453264]
デジタルコンピュータにおける従来の信号再構成手法は、ソフトウェアとハードウェアの両方の課題に直面している。
本稿では,スパース入力からの信号再構成のためのソフトウェア・ハードウェア協調最適化を用いた体系的アプローチを提案する。
この研究は、AI駆動の信号復元技術を進歩させ、将来の効率的で堅牢な医療AIと3Dビジョンアプリケーションへの道を開く。
論文 参考訳(メタデータ) (2024-04-15T09:33:09Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - LLM in a flash: Efficient Large Language Model Inference with Limited Memory [19.668719251238176]
大規模言語モデル(LLM)は現代の自然言語処理の中心であり、様々なタスクにおいて例外的なパフォーマンスを提供する。
本稿では,利用可能なDRAM容量を超えるLLMを効率的に動作させるという課題に対処する。
本手法は,フラッシュメモリの特性を考慮した推論コストモデルの構築を含む。
論文 参考訳(メタデータ) (2023-12-12T18:57:08Z) - Towards Memory-Efficient Neural Networks via Multi-Level in situ
Generation [10.563649948220371]
ディープニューラルネットワーク(DNN)は、様々なタスクにおいて優れたパフォーマンスを示している。
それらが急速に進化するにつれて、そのエスカレーション計算とメモリ要求により、リソースに制約のあるエッジデバイスへのデプロイが困難になる。
超高速なオンチップ計算で高価なメモリトランザクションを交換するための汎用的で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-25T18:50:24Z) - One-step regression and classification with crosspoint resistive memory
arrays [62.997667081978825]
高速で低エネルギーのコンピュータは、エッジでリアルタイム人工知能を実現するために要求されている。
ワンステップ学習は、ボストンの住宅のコスト予測と、MNIST桁認識のための2層ニューラルネットワークのトレーニングによって支援される。
結果は、クロスポイントアレイ内の物理計算、並列計算、アナログ計算のおかげで、1つの計算ステップで得られる。
論文 参考訳(メタデータ) (2020-05-05T08:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。