論文の概要: Chameleon: a Heterogeneous and Disaggregated Accelerator System for Retrieval-Augmented Language Models
- arxiv url: http://arxiv.org/abs/2310.09949v4
- Date: Mon, 24 Mar 2025 18:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:52:55.778565
- Title: Chameleon: a Heterogeneous and Disaggregated Accelerator System for Retrieval-Augmented Language Models
- Title(参考訳): Chameleon: Retrieval-Augmented Language Modelのための不均一・非凝集型加速器システム
- Authors: Wenqi Jiang, Marco Zeller, Roger Waleffe, Torsten Hoefler, Gustavo Alonso,
- Abstract要約: Retrieval-Augmented Language Model (RALM)は、大規模言語モデル(LLM)とベクトルデータベースを組み合わせて、文脈固有の知識を検索する。
LLMとベクトルサーチを融合した異種加速器Chameleonを提案する。
- 参考スコア(独自算出の注目度): 20.286113681831814
- License:
- Abstract: A Retrieval-Augmented Language Model (RALM) combines a large language model (LLM) with a vector database to retrieve context-specific knowledge during text generation. This strategy facilitates impressive generation quality even with smaller models, thus reducing computational demands by orders of magnitude. To serve RALMs efficiently and flexibly, we propose Chameleon, a heterogeneous accelerator system integrating both LLM and vector search accelerators in a disaggregated architecture. The heterogeneity ensures efficient serving for both inference and retrieval, while the disaggregation allows independent scaling of LLM and vector search accelerators to fulfill diverse RALM requirements. Our Chameleon prototype implements vector search accelerators on FPGAs and assigns LLM inference to GPUs, with CPUs as cluster coordinators. Evaluated on various RALMs, Chameleon exhibits up to 2.16$\times$ reduction in latency and 3.18x speedup in throughput compared to the hybrid CPU-GPU architecture. The promising results pave the way for adopting heterogeneous accelerators for not only LLM inference but also vector search in future RALM systems.
- Abstract(参考訳): Retrieval-Augmented Language Model (RALM)は、大規模言語モデル(LLM)とベクトルデータベースを組み合わせて、テキスト生成中にコンテキスト固有の知識を取得する。
この戦略は、より小さなモデルであっても印象的な生成品質を促進するため、計算要求を桁違いに削減する。
ALMを効率よく柔軟に提供するために,LLMとベクトルサーチアクセラレータを分離アーキテクチャに統合した異種加速器であるChameleonを提案する。
ヘテロジニティは推論と検索の両方に効率的なサービスを提供し、デアグリゲーションはLSMとベクトルサーチアクセラレータの独立スケーリングを可能にし、様々なALM要求を満たす。
我々のChameleonプロトタイプはFPGA上にベクトルサーチアクセラレータを実装し,CPUをクラスタコーディネータとして,LLM推論をGPUに割り当てる。
様々なRALMを評価し、Chameleonは2.16$\times$のレイテンシの削減と3.18倍のスループットのスループットをハイブリッドCPU-GPUアーキテクチャと比較する。
有望な結果は、将来のRALMシステムにおいて、LLM推論だけでなくベクトル探索にも不均一な加速器を採用するための道を開いた。
関連論文リスト
- HeteroLLM: Accelerating Large Language Model Inference on Mobile SoCs platform with Heterogeneous AI Accelerators [7.377592753635839]
HeteroLLMはモバイルデバイスで最速のLCM推論エンジンであり、層レベルとテンソルレベルのヘテロジニアス実行の両方をサポートする。
評価結果から,HeteroLLMは他のモバイル側LPM推論エンジンと比較して9.99と4.36の性能改善が達成された。
論文 参考訳(メタデータ) (2025-01-11T02:42:02Z) - Accelerating Retrieval-Augmented Generation [15.179354005559338]
Retrieval-Augmented Generation (RAG)は、Webのような外部知識ソースから取得した情報によって、大きな言語モデルを拡張する。
IKSは、ホストCPUとニアメモリアクセラレータ間の新しいキャッシュコヒーレントインターフェースを備えたスケールアウトニアメモリアクセラレーションアーキテクチャを実装したタイプ2 CXLデバイスである。
論文 参考訳(メタデータ) (2024-12-14T06:47:56Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference [2.9302211589186244]
大規模言語モデル(LLM)は自然言語処理を変換し、機械が人間のようなテキストを生成し、意味のある会話を行うことを可能にする。
計算と記憶能力の発達はムーアの法則の廃止によってさらに悪化している。
コンピュート・イン・メモリ(CIM)技術は、メモリ内でアナログ計算を直接実行することにより、AI推論を加速するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-12T16:57:58Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - LiteTransformerSearch: Training-free On-device Search for Efficient
Autoregressive Language Models [34.673688610935876]
モデルトレーニングを必要とせずに、レイテンシとパープレクシリティが最前線に現れることを示す。
我々は,多種多様なデバイス上での軽量トランスフォーマーサーチ (LTS) の評価を行った。
最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することができることを示す。
論文 参考訳(メタデータ) (2022-03-04T02:10:43Z) - Union: A Unified HW-SW Co-Design Ecosystem in MLIR for Evaluating Tensor
Operations on Spatial Accelerators [4.055002321981825]
We present a HW-SW co-design ecosystem for space accelerators called Union。
我々のフレームワークは、いくつかのアクセラレータコストモデル上で、異なるアルゴリズムとそのマッピングを探索することができる。
コミュニティにとってのユニオンの価値をいくつかのケーススタディで実証する。
論文 参考訳(メタデータ) (2021-09-15T16:42:18Z) - GhostSR: Learning Ghost Features for Efficient Image Super-Resolution [49.393251361038025]
畳み込みニューラルネットワーク(CNN)に基づく単一の画像スーパーリゾリューション(SISR)システムは、膨大な計算コストを必要としながら派手なパフォーマンスを実現します。
SISRモデルの冗長な特徴(すなわちゴースト特徴)を生成するためにシフト演算を用いることを提案する。
提案モジュールに埋め込まれた非コンパクトかつ軽量なSISRモデルの両方が,ベースラインと同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-01-21T10:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。