Fugu-MT 論文翻訳(概要): Accessible and Portable LLM Inference by Compiling Computational Graphs into SQL

論文の概要: Accessible and Portable LLM Inference by Compiling Computational Graphs into SQL

arxiv url: http://arxiv.org/abs/2502.02818v1
Date: Wed, 05 Feb 2025 01:36:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-06 16:28:50.925669
Title: Accessible and Portable LLM Inference by Compiling Computational Graphs into SQL
Title（参考訳）: SQLに計算グラフをコンパイルすることで、アクセシブルでポータブルなLLM推論
Authors: Wenbo Sun, Qiming Guo, Wenlu Wang, Rihan Hai,
Abstract要約: 大規模言語モデル(LLM)は、しばしば特別なハードウェア、専用のフレームワーク、そしてアクセシビリティを制限する実質的な開発努力を必要とする。本稿では,LLM推論グラフを intosql クエリに変換するコンパイラを提案する。私たちの仕事は、アクセス可能でポータブルで効率的なソリューションを提供し、多様なデプロイメント環境におけるLLMの提供を容易にします。
参考スコア（独自算出の注目度）: 10.585061312659516
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Serving large language models (LLMs) often demands specialized hardware, dedicated frameworks, and substantial development efforts, which restrict their accessibility, especially for edge devices and organizations with limited technical resources. We propose a novel compiler that translates LLM inference graphs into SQL queries, enabling relational databases, one of the most widely used and mature software systems globally, to serve as the runtime. By mapping neural operators such as matrix multiplication and attention into relational primitives like joins and aggregations, our approach leverages database capabilities, including disk-based data management and native caching. Supporting key transformer components, such as attention mechanisms and key-value caching, our system generates SQL pipelines for end-to-end LLM inference. Using the Llama3 family as a case study, we demonstrate up to 30x speedup in token generation for memory-constrained scenarios comparable to competitive CPU-based frameworks. Our work offers an accessible, portable, and efficient solution, facilitating the serving of LLMs across diverse deployment environments.
Abstract（参考訳）: 大規模言語モデル(LLM)の実現には、特別なハードウェア、専用のフレームワーク、実質的な開発作業が必要であり、特に技術的なリソースが限られているエッジデバイスや組織ではアクセシビリティを制限する。本稿では,LLM推論グラフをSQLクエリに変換する新しいコンパイラを提案する。行列乗算やアグリゲーションなどのニューラル演算子を結合やアグリゲーションといったリレーショナルプリミティブにマッピングすることで,ディスクベースのデータ管理やネイティブキャッシュなどのデータベース機能を活用する。注意機構やキー値キャッシュなどのキートランスフォーマーコンポーネントをサポートして,エンド・ツー・エンドのLSM推論のためのSQLパイプラインを生成する。 Llama3ファミリをケーススタディとして、競合するCPUベースのフレームワークに匹敵するメモリ制約のシナリオに対して、トークン生成の最大30倍の高速化を示す。私たちの仕事は、アクセス可能でポータブルで効率的なソリューションを提供し、多様なデプロイメント環境におけるLLMの提供を容易にします。

関連論文リスト

The Case for Instance-Optimized LLMs in OLAP Databases [0.7090165638014332]
大規模言語モデル(LLM)は、強力なデータ要約、クリーニング、セマンティックトランスフォーメーション機能を備えた分析システムを強化することができる。 IOLMDB は,クエリ固有モデル最適化により LLM 拡張データベースクエリを実用的なものにする新しいシステムである。
論文参考訳（メタデータ） (2025-07-07T13:10:01Z)
StreamLink: Large-Language-Model Driven Distributed Data Engineering System [2.8237743652666656]
大言語モデル(LLM)は、自然言語理解(NLU)において顕著な熟練度を示した。データエンジニアリングタスクの効率性とアクセシビリティを改善するために設計された,LLM駆動の分散データシステムであるStreamLinkを紹介する。
論文参考訳（メタデータ） (2025-05-27T07:44:16Z)
SplitLLM: Collaborative Inference of LLMs for Model Placement and Throughput Optimization [8.121663525764294]
大きな言語モデル(LLM)は、人間のようなテキストを理解し、生成する能力のために、私たちの日常生活において重要な役割を担います。本稿では,サーバとクライアント間の協調推論アーキテクチャを設計し,スループットの限界を緩和する。実験では、サーバのワークロードを約1/3削減できるように、効率よくワークロードを分散できることを示した。
論文参考訳（メタデータ） (2024-10-14T17:38:41Z)
MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning [25.45278447786954]
MLLM-LLaVA-FL(Multimodal Large Language Model Assisted Federated Learning)と呼ばれる新しいフェデレーション学習フレームワークを導入する。当社のフレームワークは,Webサイトや強力なサーバサイド計算リソースからアクセス可能な,広範かつ未公開のオープンソースデータを活用することに長けています。
論文参考訳（メタデータ） (2024-09-09T21:04:16Z)
The Compressor-Retriever Architecture for Language Model OS [20.56093501980724]
オペレーティングシステム(OS)のコアコンポーネントとして言語モデルを用いるという概念について検討する。このようなLM OSを実現する上で重要な課題は、寿命の長いコンテキストを管理し、セッション間のステートフルネスを確保することだ。本稿では,生涯のコンテキスト管理のために設計されたモデル非依存アーキテクチャであるコンプレッサー・レトリバーを紹介する。
論文参考訳（メタデータ） (2024-09-02T23:28:15Z)
Relational Database Augmented Large Language Model [59.38841050766026]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクに優れる。彼らは、トレーニングや教師付き微調整プロセスを通じてのみ、新しい知識を取り入れることができる。この正確で最新のプライベート情報は、通常リレーショナルデータベースに格納される。
論文参考訳（メタデータ） (2024-07-21T06:19:10Z)
RB-SQL: A Retrieval-based LLM Framework for Text-to-SQL [48.516004807486745]
文脈内学習を伴う大規模言語モデル(LLM)は、テキスト・ツー・タスクの性能を大幅に改善した。 In-context prompt Engineering のための新しい検索ベースフレームワーク RB- を提案する。実験により,我々のモデルは,公開データセットのBIRDとSpiderの競合ベースラインよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-07-11T08:19:58Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Demystifying AI Platform Design for Distributed Inference of Next-Generation LLM models [8.02264001053969]
大きな言語モデル(LLM)は、広範囲のアプリケーションで顕著なパフォーマンスを示しており、しばしば人間の専門家よりも優れています。 LLMの継続的なイノベーションが最適化に役立ち、モデルアーキテクチャはブレークネックスピードで進化しているため、サービスレベルオブジェクト(SLO)を満たすためのハードウェア要件は、オープンな研究課題のままである。我々は、多様なLLMモデルアーキテクチャとAIプラットフォーム設計パラメータの関係を効率的にナビゲートする分析ツールGenZを提案する。
論文参考訳（メタデータ） (2024-06-03T18:00:50Z)
Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文参考訳（メタデータ） (2024-03-09T07:01:44Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub [79.31134731122462]
オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。我々は,オープンドメインの進化するクエリに,GitHubから専門ツールを自律的に統合することで対処できる,新しいLLMベースのエージェントシステムであるOpenAgentを紹介する。
論文参考訳（メタデータ） (2023-12-28T15:47:30Z)
Serving Deep Learning Model in Relational Databases [70.53282490832189]
リレーショナルデータ上での深層学習(DL)モデルの実現は、様々な商業分野や科学分野において重要な要件となっている。最先端のDL中心アーキテクチャは、DL計算を専用のDLフレームワークにオフロードします。 UDF中心アーキテクチャの可能性は、リレーショナルデータベース管理システム(RDBMS)内の1つ以上のテンソル計算をユーザ定義関数(UDF)にカプセル化する。
論文参考訳（メタデータ） (2023-10-07T06:01:35Z)
Recommender AI Agent: Integrating Large Language Models for Interactive Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。 InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文参考訳（メタデータ） (2023-08-31T07:36:44Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。