論文の概要: CHIME: Chiplet-based Heterogeneous Near-Memory Acceleration for Edge Multimodal LLM Inference
- arxiv url: http://arxiv.org/abs/2601.19908v1
- Date: Fri, 12 Dec 2025 03:59:36 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-02-08 17:24:16.283952
- Title: CHIME: Chiplet-based Heterogeneous Near-Memory Acceleration for Edge Multimodal LLM Inference
- Title(参考訳): CHIME:エッジマルチモーダルLCM推論のためのキプレットを用いた不均一ニアメモリ高速化
- Authors: Yanru Chen, Runyang Tian, Yue Pan, Zheyu Li, Weihong Xu, Tajana Rosing,
- Abstract要約: エッジMLLM推論のためのチップレットベースの異種ニアメモリ高速化であるCHIMEを提案する。
FastVLM (0.6B/1.7B) とMobileVLM (1.7B/3B) では、CHIMEは54倍のスピードアップと最大246倍のエネルギー効率を達成する。
- 参考スコア(独自算出の注目度): 19.989162649002274
- License:
- Abstract: The proliferation of large language models (LLMs) is accelerating the integration of multimodal assistants into edge devices, where inference is executed under stringent latency and energy constraints, often exacerbated by intermittent connectivity. These challenges become particularly acute in the context of multimodal LLMs (MLLMs), as high-dimensional visual inputs are transformed into extensive token sequences, thereby inflating the key-value (KV) cache and imposing substantial data movement overheads to the LLM backbone. To address these issues, we present CHIME, a chiplet-based heterogeneous near-memory acceleration for edge MLLMs inference. CHIME leverages the complementary strengths of integrated monolithic 3D (M3D) DRAM and RRAM chiplets: DRAM supplies low-latency bandwidth for attention, while RRAM offers dense, non-volatile storage for weights. This heterogeneous hardware is orchestrated by a co-designed mapping framework that executes fused kernels near data, minimizing cross-chiplet traffic to maximize effective bandwidth. On FastVLM (0.6B/1.7B) and MobileVLM (1.7B/3B), CHIME achieves up to 54x speedup and up to 246x better energy efficiency per inference as compared to the edge GPU NVIDIA Jetson Orin NX. It sustains 116.5-266.5 token/J compared to Jetson's 0.7-1.1 token/J. Furthermore, it delivers up to 69.2x higher throughput than the state-of-the-art PIM accelerator FACIL. Compared to the M3D DRAM-only design, CHIME's heterogeneous memory further improves energy efficiency by 7% and performance by 2.4x.
- Abstract(参考訳): 大規模言語モデル(LLM)の普及により、エッジデバイスへのマルチモーダルアシスタントの統合が加速し、断続的な接続によって悪化する、厳しいレイテンシとエネルギー制約の下で推論が実行される。
これらの課題は、高次元の視覚入力が広範囲なトークンシーケンスに変換され、キー値(KV)キャッシュが膨らみ、LLMバックボーンにかなりのデータ移動オーバーヘッドを与えるため、MLLM(Multimodal LLM)の文脈で特に深刻になる。
これらの問題に対処するために、エッジMLLM推論のためのチップレットベースの異種ニアメモリアクセラレーションCHIMEを提案する。
CHIMEは、統合型モノリシック3D(M3D)DRAMとRRAMチップレットの相補的な長所を生かしている: DRAMは注意のために低遅延帯域を提供し、RRAMは重みのための密集した非揮発性ストレージを提供する。
この異種ハードウェアは、データに近い融合カーネルを実行し、効率的な帯域幅を最大化するためにクロスチップトラフィックを最小限にする、共同設計のマッピングフレームワークによって編成される。
FastVLM (0.6B/1.7B) と MobileVLM (1.7B/3B) では、CHIMEは、エッジGPUのNVIDIA Jetson Orin NXと比較して54倍のスピードアップと246倍のエネルギー効率を実現している。
ジェットソンの0.7-1.1トークン/Jと比べて116.5-266.5トークン/Jを維持している。
さらに、最先端のPIMアクセラレータFACILよりも最大69.2倍高いスループットを提供する。
M3D DRAMのみの設計と比較して、CHIMEの異種メモリはエネルギー効率を7%向上し、性能は2.4倍向上した。
関連論文リスト
- InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models [49.08289742711585]
我々は、Gated DeltaNetとSWA(Slide window attention)を相乗化する線形複雑VLMアーキテクチャであるInfiniteVLを提案する。
InfiniteVLは、一定のレイテンシとメモリフットプリントを維持しながら、3.6時間以上の推論高速化を実現する。
ストリーミングビデオ理解のシナリオでは、長期メモリキャッシュを保持しながら、24FPSのリアルタイムプリフィル速度を安定的に維持する。
論文 参考訳(メタデータ) (2025-12-09T17:18:32Z) - Sangam: Chiplet-Based DRAM-PIM Accelerator with CXL Integration for LLM Inferencing [2.9665163298601342]
推論、特にデコードフェーズは、メモリバウンドGEMVまたはフラットGEMM操作によって支配される。
既存のインメモリソリューションは、メモリ容量の削減などの限界に直面している。
この作業は、これらの制限に対処するチップレットベースのメモリモジュールを提供する。
論文 参考訳(メタデータ) (2025-11-15T16:39:51Z) - Kelle: Co-design KV Caching and eDRAM for Efficient LLM Serving in Edge Computing [9.984481065465028]
エッジデバイス上の大規模言語モデル(LLM)は、レイテンシの低減、リアルタイム処理の改善、プライバシの向上に不可欠である。
エッジデバイスにLLMを実装することは、特にキーバリューキャッシュの管理において、課題となる。
エッジデバイスにおけるLLMのプライマリストレージとしてeDRAMを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:12:08Z) - Stratum: System-Hardware Co-Design with Tiered Monolithic 3D-Stackable DRAM for Efficient MoE Serving [24.320791041324316]
Stratumは、新しいメモリ技術であるMonolithic 3D-Stackable DRAM(Mono3D DRAM)、ニアメモリ処理(NMP)、GPUアクセラレーションを組み合わせたシステムハードウェアの共同設計手法である。
システムは、GPUベースラインと比較して、デコードスループットが最大8.29倍改善され、様々なベンチマークでエネルギー効率が7.66倍向上する。
論文 参考訳(メタデータ) (2025-10-06T18:09:47Z) - Hybrid Systolic Array Accelerator with Optimized Dataflow for Edge Large Language Model Inference [8.475319961845903]
エッジアクセラレータは、高い領域効率を実現し、外部メモリアクセスを最小限にする。
本稿では,ハイブリッドシストリックアレイアーキテクチャを特徴とするエッジLLM推論アクセラレータを提案する。
我々のソリューションは、ロングインプット/ロングアウトプットのシナリオで1.3B LLMを実行しながら247/117 (token/s/mm2)を達成する。
論文 参考訳(メタデータ) (2025-07-11T20:27:30Z) - L3: DIMM-PIM Integrated Architecture and Coordination for Scalable Long-Context LLM Inference [6.886434948681708]
大きな言語モデル(LLM)では、長いテキストシーケンスの処理がますます必要になるが、GPUメモリの制限により、メモリ容量と帯域幅のトレードオフが困難になる。
重要なメモリボトルネックは、マルチヘッドアテンションの復号フェーズにある。
本稿では,DIMM-PIMとGPUデバイスを統合したハードウェア・ソフトウェア共同設計システムであるL3を提案する。
論文 参考訳(メタデータ) (2025-04-24T14:14:07Z) - LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。