論文の概要: LLM-dCache: Improving Tool-Augmented LLMs with GPT-Driven Localized Data Caching
- arxiv url: http://arxiv.org/abs/2406.06799v2
- Date: Sat, 21 Sep 2024 09:10:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-26 02:44:16.159062
- Title: LLM-dCache: Improving Tool-Augmented LLMs with GPT-Driven Localized Data Caching
- Title(参考訳): LLM-dCache: GPT駆動のローカライズデータキャッシュによるツール拡張LDMの改善
- Authors: Simranjit Singh, Michael Fore, Andreas Karatzas, Chaehong Lee, Yanan Jian, Longfei Shangguan, Fuxun Yu, Iraklis Anagnostopoulos, Dimitrios Stamoulis,
- Abstract要約: ツール拡張エージェントに公開された呼び出し可能なAPI関数としてキャッシュ操作を扱い,データアクセスを最適化するLLM-dCacheを導入する。
LLMには、既存の関数呼び出し機構とシームレスに統合することで、キャッシュ決定を管理する自律性を提供します。
- 参考スコア(独自算出の注目度): 5.203031624781443
- License:
- Abstract: As Large Language Models (LLMs) broaden their capabilities to manage thousands of API calls, they are confronted with complex data operations across vast datasets with significant overhead to the underlying system. In this work, we introduce LLM-dCache to optimize data accesses by treating cache operations as callable API functions exposed to the tool-augmented agent. We grant LLMs the autonomy to manage cache decisions via prompting, seamlessly integrating with existing function-calling mechanisms. Tested on an industry-scale massively parallel platform that spans hundreds of GPT endpoints and terabytes of imagery, our method improves Copilot times by an average of 1.24x across various LLMs and prompting techniques.
- Abstract(参考訳): 大規模言語モデル(LLM)が数千のAPIコールを管理する能力を拡大するにつれ、基盤となるシステムに重大なオーバーヘッドを伴って、巨大なデータセットにわたる複雑なデータ操作に直面している。
本研究では,ツール拡張エージェントが公開する呼び出し可能なAPI関数としてキャッシュ操作を扱い,データアクセスを最適化するLLM-dCacheを提案する。
LLMには、既存の関数呼び出し機構とシームレスに統合することで、キャッシュ決定を管理する自律性を提供します。
数百のGPTエンドポイントとテラバイトのイメージにまたがる,産業規模の大規模並列プラットフォーム上でテストされた本手法は,さまざまなLSMに対して平均1.24倍のCopilot時間を短縮し,高速化する。
関連論文リスト
- Farewell to Length Extrapolation, a Training-Free Infinite Context with Finite Attention Scope [68.10585571422929]
LongCacheは、LLMが有限コンテキストスコープで無限コンテキストをサポートすることができるトレーニング不要のアプローチである。
我々はLongBenchとL-EvalでLongCacheを検証し、その性能が従来のフルアテンション機構と同等であることを実証した。
GPUを意識した最適化によって,LongCacheの効率性も近く向上します。
論文 参考訳(メタデータ) (2024-07-21T14:23:37Z) - Relational Database Augmented Large Language Model [59.38841050766026]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクに優れる。
彼らは、トレーニングや教師付き微調整プロセスを通じてのみ、新しい知識を取り入れることができる。
この正確で最新のプライベート情報は、通常リレーショナルデータベースに格納される。
論文 参考訳(メタデータ) (2024-07-21T06:19:10Z) - Granite-Function Calling Model: Introducing Function Calling Abilities via Multi-task Learning of Granular Tasks [35.97890508648945]
我々はApache 2.0ライセンスの下で-20B-FUNCTIONCALLINGモデルを紹介します。
モデルは7つの基本的なタスクに対してマルチタスクトレーニングアプローチを使用してトレーニングされる。
20B-FUNCTIONCALLINGは、7つの異なる評価データセットにおいて、複数のタスクに対してより一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-27T17:47:26Z) - Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。
私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。
実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Efficient LLM inference solution on Intel GPU [19.154403468201924]
トランスフォーマーベースの大規模言語モデル(LLM)は多くの分野で広く使われている。
低レイテンシかつ高スループットで効率的なLLM推論ソリューションを提案する。
標準的なHuggingFaceの実装と比較して、提案されたソリューションは最大で7倍のトークンレイテンシと27倍のスループットを実現している。
論文 参考訳(メタデータ) (2023-12-19T05:40:43Z) - SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。
SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文 参考訳(メタデータ) (2023-10-01T17:59:20Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。