論文の概要: Accessible and Portable LLM Inference by Compiling Computational Graphs into SQL
- arxiv url: http://arxiv.org/abs/2502.02818v1
- Date: Wed, 05 Feb 2025 01:36:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:24:03.414539
- Title: Accessible and Portable LLM Inference by Compiling Computational Graphs into SQL
- Title(参考訳): SQLに計算グラフをコンパイルすることで、アクセシブルでポータブルなLLM推論
- Authors: Wenbo Sun, Qiming Guo, Wenlu Wang, Rihan Hai,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば特別なハードウェア、専用のフレームワーク、そしてアクセシビリティを制限する実質的な開発努力を必要とする。
本稿では,LLM推論グラフを intosql クエリに変換するコンパイラを提案する。
私たちの仕事は、アクセス可能でポータブルで効率的なソリューションを提供し、多様なデプロイメント環境におけるLLMの提供を容易にします。
- 参考スコア(独自算出の注目度): 10.585061312659516
- License:
- Abstract: Serving large language models (LLMs) often demands specialized hardware, dedicated frameworks, and substantial development efforts, which restrict their accessibility, especially for edge devices and organizations with limited technical resources. We propose a novel compiler that translates LLM inference graphs into SQL queries, enabling relational databases, one of the most widely used and mature software systems globally, to serve as the runtime. By mapping neural operators such as matrix multiplication and attention into relational primitives like joins and aggregations, our approach leverages database capabilities, including disk-based data management and native caching. Supporting key transformer components, such as attention mechanisms and key-value caching, our system generates SQL pipelines for end-to-end LLM inference. Using the Llama3 family as a case study, we demonstrate up to 30x speedup in token generation for memory-constrained scenarios comparable to competitive CPU-based frameworks. Our work offers an accessible, portable, and efficient solution, facilitating the serving of LLMs across diverse deployment environments.
- Abstract(参考訳): 大規模言語モデル(LLM)の実現には、特別なハードウェア、専用のフレームワーク、実質的な開発作業が必要であり、特に技術的なリソースが限られているエッジデバイスや組織ではアクセシビリティを制限する。
本稿では,LLM推論グラフをSQLクエリに変換する新しいコンパイラを提案する。
行列乗算やアグリゲーションなどのニューラル演算子を結合やアグリゲーションといったリレーショナルプリミティブにマッピングすることで,ディスクベースのデータ管理やネイティブキャッシュなどのデータベース機能を活用する。
注意機構やキー値キャッシュなどのキートランスフォーマーコンポーネントをサポートして,エンド・ツー・エンドのLSM推論のためのSQLパイプラインを生成する。
Llama3ファミリをケーススタディとして、競合するCPUベースのフレームワークに匹敵するメモリ制約のシナリオに対して、トークン生成の最大30倍の高速化を示す。
私たちの仕事は、アクセス可能でポータブルで効率的なソリューションを提供し、多様なデプロイメント環境におけるLLMの提供を容易にします。
関連論文リスト
- SplitLLM: Collaborative Inference of LLMs for Model Placement and Throughput Optimization [8.121663525764294]
大きな言語モデル(LLM)は、人間のようなテキストを理解し、生成する能力のために、私たちの日常生活において重要な役割を担います。
本稿では,サーバとクライアント間の協調推論アーキテクチャを設計し,スループットの限界を緩和する。
実験では、サーバのワークロードを約1/3削減できるように、効率よくワークロードを分散できることを示した。
論文 参考訳(メタデータ) (2024-10-14T17:38:41Z) - MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning [25.45278447786954]
MLLM-LLaVA-FL(Multimodal Large Language Model Assisted Federated Learning)と呼ばれる新しいフェデレーション学習フレームワークを導入する。
当社のフレームワークは,Webサイトや強力なサーバサイド計算リソースからアクセス可能な,広範かつ未公開のオープンソースデータを活用することに長けています。
論文 参考訳(メタデータ) (2024-09-09T21:04:16Z) - The Compressor-Retriever Architecture for Language Model OS [20.56093501980724]
オペレーティングシステム(OS)のコアコンポーネントとして言語モデルを用いるという概念について検討する。
このようなLM OSを実現する上で重要な課題は、寿命の長いコンテキストを管理し、セッション間のステートフルネスを確保することだ。
本稿では,生涯のコンテキスト管理のために設計されたモデル非依存アーキテクチャであるコンプレッサー・レトリバーを紹介する。
論文 参考訳(メタデータ) (2024-09-02T23:28:15Z) - Relational Database Augmented Large Language Model [59.38841050766026]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクに優れる。
彼らは、トレーニングや教師付き微調整プロセスを通じてのみ、新しい知識を取り入れることができる。
この正確で最新のプライベート情報は、通常リレーショナルデータベースに格納される。
論文 参考訳(メタデータ) (2024-07-21T06:19:10Z) - RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL [48.516004807486745]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクの性能を大幅に改善した。
In-context prompt Engineering のための新しい検索ベースフレームワーク RB- を提案する。
実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-07-11T08:19:58Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。
私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。
実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Large-Scale Intelligent Microservices [24.99695289157708]
我々は、データベース操作を拡張してWebサービスプリミティブを含むApache Sparkベースのマイクロサービスオーケストレーションフレームワークを紹介します。
音声、視覚、検索、異常検出、テキスト分析などのインテリジェントなサービスに対して大規模なクライアントを提供する。
論文 参考訳(メタデータ) (2020-09-17T03:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。