Fugu-MT 論文翻訳(概要): LLM-dCache: Improving Tool-Augmented LLMs with GPT-Driven Localized Data Caching

論文の概要: LLM-dCache: Improving Tool-Augmented LLMs with GPT-Driven Localized Data Caching

arxiv url: http://arxiv.org/abs/2406.06799v2
Date: Sat, 21 Sep 2024 09:10:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-09 01:44:51.713439
Title: LLM-dCache: Improving Tool-Augmented LLMs with GPT-Driven Localized Data Caching
Title（参考訳）: LLM-dCache: GPT駆動のローカライズデータキャッシュによるツール拡張LDMの改善
Authors: Simranjit Singh, Michael Fore, Andreas Karatzas, Chaehong Lee, Yanan Jian, Longfei Shangguan, Fuxun Yu, Iraklis Anagnostopoulos, Dimitrios Stamoulis,
Abstract要約: ツール拡張エージェントに公開された呼び出し可能なAPI関数としてキャッシュ操作を扱い,データアクセスを最適化するLLM-dCacheを導入する。 LLMには、既存の関数呼び出し機構とシームレスに統合することで、キャッシュ決定を管理する自律性を提供します。
参考スコア（独自算出の注目度）: 5.203031624781443
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As Large Language Models (LLMs) broaden their capabilities to manage thousands of API calls, they are confronted with complex data operations across vast datasets with significant overhead to the underlying system. In this work, we introduce LLM-dCache to optimize data accesses by treating cache operations as callable API functions exposed to the tool-augmented agent. We grant LLMs the autonomy to manage cache decisions via prompting, seamlessly integrating with existing function-calling mechanisms. Tested on an industry-scale massively parallel platform that spans hundreds of GPT endpoints and terabytes of imagery, our method improves Copilot times by an average of 1.24x across various LLMs and prompting techniques.
Abstract（参考訳）: 大規模言語モデル(LLM)が数千のAPIコールを管理する能力を拡大するにつれ、基盤となるシステムに重大なオーバーヘッドを伴って、巨大なデータセットにわたる複雑なデータ操作に直面している。本研究では,ツール拡張エージェントが公開する呼び出し可能なAPI関数としてキャッシュ操作を扱い,データアクセスを最適化するLLM-dCacheを提案する。 LLMには、既存の関数呼び出し機構とシームレスに統合することで、キャッシュ決定を管理する自律性を提供します。数百のGPTエンドポイントとテラバイトのイメージにまたがる,産業規模の大規模並列プラットフォーム上でテストされた本手法は,さまざまなLSMに対して平均1.24倍のCopilot時間を短縮し,高速化する。

関連論文リスト

ToolCaching: Towards Efficient Caching for LLM Tool-calling [13.738787213936225]
キャッシュは、冗長あるいは反復的なツール呼び出し要求の問題に対する古典的な解決策である。効率的な機能駆動型アダプティブキャッシュフレームワークであるToolCachingを提案する。 ToolCachingはキャッシュヒット率を最大11%向上し,標準ポリシよりも34%低レイテンシを実現している。
論文参考訳（メタデータ） (2026-01-20T09:25:59Z)
MemLoRA: Distilling Expert Adapters for On-Device Memory Systems [71.32550994522738]
メモリ拡張大言語モデル(LLM)は対話中に顕著な一貫性を示す。 MemLoRAは、小さなVision-Language Modelを統合する新しいメモリシステムである。 VLM統合MemLoRA-Vはキャプションベースのアプローチで大幅に改善されている。
論文参考訳（メタデータ） (2025-12-04T12:56:30Z)
Research Challenges in Relational Database Management Systems for LLM Queries [5.014147650339722]
大規模言語モデル(LLM)は、テキスト要約、感情分析、自動質問応答などのアプリケーションに欠かせないものとなっている。近年,LLMはクエリ機能を強化し,高度なデータ処理をサポートするリレーショナルデータベース管理システムに統合されている。オープンソースソリューションは現在、機能に制限があり、パフォーマンスが劣っている。
論文参考訳（メタデータ） (2025-08-28T15:41:49Z)
The Case for Instance-Optimized LLMs in OLAP Databases [0.7090165638014332]
大規模言語モデル(LLM)は、強力なデータ要約、クリーニング、セマンティックトランスフォーメーション機能を備えた分析システムを強化することができる。 IOLMDB は,クエリ固有モデル最適化により LLM 拡張データベースクエリを実用的なものにする新しいシステムである。
論文参考訳（メタデータ） (2025-07-07T13:10:01Z)
Accessible and Portable LLM Inference by Compiling Computational Graphs into SQL [10.585061312659516]
大規模言語モデル(LLM)は、しばしば特別なハードウェア、専用のフレームワーク、そしてアクセシビリティを制限する実質的な開発努力を必要とする。本稿では,LLM推論グラフを intosql クエリに変換するコンパイラを提案する。私たちの仕事は、アクセス可能でポータブルで効率的なソリューションを提供し、多様なデプロイメント環境におけるLLMの提供を容易にします。
論文参考訳（メタデータ） (2025-02-05T01:36:40Z)
Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文参考訳（メタデータ） (2025-02-03T18:35:42Z)
LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。 LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2025-01-28T03:18:48Z)
InstCache: A Predictive Cache for LLM Serving [6.076957323090607]
キャッシング技術は、大規模言語モデル推論エンジンのパフォーマンスを最適化する機会を提供する。命令の内容と長さのばらつきが大きいため、同じ命令が短時間のウィンドウ内で再帰することは稀である。 LLMサービスシステムの予測キャッシュ機構であるInstCacheを提案する。
論文参考訳（メタデータ） (2024-11-21T03:52:41Z)
Faster LLM Inference using DBMS-Inspired Preemption and Cache Replacement Policies [9.92327835631428]
本稿ではまず, LLM推論の性能を分析し, LLM推論におけるデータ管理の問題に焦点をあてる。スケジューリングシステムには,要求のスケジューリングに十分なリソースコストモデルと最適化戦略が欠如していることが判明した。我々は,LLM推論に適した並列推論要求のコストモデルと新しいキャッシュ置換ポリシーを構築することで,古典的なデータベース手法を適用した。
論文参考訳（メタデータ） (2024-11-12T00:10:34Z)
Fast Inference for Augmented Large Language Models [14.195265302357148]
Augmented Large Language Models (LLM)は、APIコールを通じて外部データソースを統合することで、スタンドアロンのLLMの機能を強化する。 SJF(Shortest Job First)のような従来のサイズベースのスケジューリングアルゴリズムは、完了時間の最小化にはあまり効果がない。拡張LLMのための新しいLLM推論フレームワークであるLAMPSを提案する。
論文参考訳（メタデータ） (2024-10-23T19:53:30Z)
Relational Database Augmented Large Language Model [59.38841050766026]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクに優れる。彼らは、トレーニングや教師付き微調整プロセスを通じてのみ、新しい知識を取り入れることができる。この正確で最新のプライベート情報は、通常リレーショナルデータベースに格納される。
論文参考訳（メタデータ） (2024-07-21T06:19:10Z)
The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。 MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文参考訳（メタデータ） (2024-07-11T15:08:11Z)
Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。 LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文参考訳（メタデータ） (2024-03-09T07:01:44Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
Efficient LLM inference solution on Intel GPU [19.154403468201924]
トランスフォーマーベースの大規模言語モデル(LLM)は多くの分野で広く使われている。低レイテンシかつ高スループットで効率的なLLM推論ソリューションを提案する。標準的なHuggingFaceの実装と比較して、提案されたソリューションは最大で7倍のトークンレイテンシと27倍のスループットを実現している。
論文参考訳（メタデータ） (2023-12-19T05:40:43Z)
SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。 SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文参考訳（メタデータ） (2023-10-01T17:59:20Z)
Recommender AI Agent: Integrating Large Language Models for Interactive Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。 InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文参考訳（メタデータ） (2023-08-31T07:36:44Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。