論文の概要: TVCACHE: A Stateful Tool-Value Cache for Post-Training LLM Agents
- arxiv url: http://arxiv.org/abs/2602.10986v1
- Date: Wed, 11 Feb 2026 16:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.146433
- Title: TVCACHE: A Stateful Tool-Value Cache for Post-Training LLM Agents
- Title(参考訳): TVCACHE: ポストトレーニングLDMエージェントのためのステートフルなツールバリューキャッシュ
- Authors: Abhishek Vijaya Kumar, Bhaskar Kataria, Byungsoo Oh, Emaad Manzoor, Rachee Singh,
- Abstract要約: TVCACHEは、LLMエージェントのポストトレーニングのためのステートフルなツール値キャッシュである。
ヒット率は70%に達し、中央値のツールコールの実行時間を最大6.9倍に削減する。
- 参考スコア(独自算出の注目度): 2.1447191409339244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In RL post-training of LLM agents, calls to external tools take several seconds or even minutes, leaving allocated GPUs idle and inflating post-training time and cost. While many tool invocations repeat across parallel rollouts and could in principle be cached, naively caching their outputs for reuse is incorrect since tool outputs depend on the environment state induced by prior agent interactions. We present TVCACHE, a stateful tool-value cache for LLM agent post-training. TVCACHE maintains a tree of observed tool-call sequences and performs longest-prefix matching for cache lookups: a hit occurs only when the agent's full tool history matches a previously executed sequence, guaranteeing identical environment state. On three diverse workloads-terminal-based tasks, SQL generation, and video understanding. TVCACHE achieves cache hit rates of up to 70% and reduces median tool call execution time by up to 6.9X, with no degradation in post-training reward accumulation.
- Abstract(参考訳): LLMエージェントのRL後トレーニングでは、外部ツールへの呼び出しには数秒または数分かかり、割り当てられたGPUはアイドル状態のままにし、トレーニング後の時間とコストを膨らませる。
多くのツール呼び出しが並列ロールアウトで繰り返され、原則としてキャッシュされる可能性があるが、ツールアウトプットが以前のエージェントのインタラクションによって引き起こされる環境状態に依存するため、再利用のためにアウトプットをネイティブにキャッシュするのは誤りである。
本稿では,LCMエージェントのポストトレーニングのためのステートフルツール値キャッシュであるTVCACHEを提案する。
TVCACHEは、観測されたツール呼び出しシーケンスのツリーを保持し、キャッシュのルックアップに対して最長のプリフィックスマッチングを実行する:ヒットは、エージェントのフルツール履歴が以前実行されたシーケンスと一致する場合にのみ発生し、同じ環境状態が保証される。
ワークロード終端ベースの3つのタスク、SQL生成、ビデオ理解。
TVCACHEは最大70%のキャッシュヒット率を実現し、トレーニング後の報酬蓄積を低下させることなく、中央値のツールコールの実行時間を最大6.9倍に削減する。
関連論文リスト
- Learning to Share: Selective Memory for Efficient Parallel Agentic Systems [49.78267008828593]
エージェントシステムは、反復的に推論する複数のエージェントを調整することで複雑なタスクを解決し、ツールを呼び出し、中間結果を交換する。
最近のアプローチでは、さまざまな推論の軌跡を探索するために、複数のエージェントチームが並行して運用されている。
我々は並列エージェントフレームワークのための学習された共有メモリ機構であるLearning to Share (LTS)を提案する。
論文 参考訳(メタデータ) (2026-02-05T18:20:21Z) - Quantifying Memory Use in Reinforcement Learning with Temporal Range [51.98491034847041]
時間的範囲(Temporal Range)は、時間的影響プロファイルとして、時間的ウィンドウから入力シーケンスへの複数のベクトル出力の1次感度を扱うモデルに依存しない計量である。
また、タスクレベルメモリのプロキシ読み出しとして、タスク上で訓練されたコンパクトなLong Expressive Memory(LEM)ポリシーについて、テンポラルレンジを報告する。
論文 参考訳(メタデータ) (2025-12-05T22:58:09Z) - Continuum: Efficient and Robust Multi-Turn LLM Agent Scheduling with KV Cache Time-to-Live [30.099614426825834]
Continuumは、マルチターンエージェントワークロードのジョブ完了時間を最適化するサービスシステムである。
エージェントのツールコール時間を予測することで、Continuumは全ターン数に基づいて、KVキャッシュをGPUメモリに選択的にピン留めする。
Llama-3.1 8B/70Bモデルを用いた実世界のエージェントワークロードに対する評価は、Continuumが平均ジョブ完了時間を大幅に改善することを示している。
論文 参考訳(メタデータ) (2025-11-04T03:43:05Z) - Semantic-Aware Scheduling for GPU Clusters with Large Language Models [60.14838697778884]
我々は、スケジューラと管理するジョブ間のセマンティックギャップを橋渡しするフレームワークであるSchedMateを提案する。
SchedMateは見過ごされ、構造化されていないデータソース(ソースコード、ランタイムログ、履歴ジョブ)から深い洞察を抽出する。
我々は、SchedMateが平均ジョブ完了時間を最大1.91倍に短縮し、スケジューリング性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-10-02T02:01:02Z) - LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。
LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文 参考訳(メタデータ) (2025-07-14T19:09:57Z) - RT-Cache: Training-Free Retrieval for Real-Time Manipulation [13.338672711391999]
RT-Cacheは、ロボットのためのトレーニング不要の検索・アズ・コントロールパイプラインである。
現行のフレームを埋め込んでマルチステップスニペットを検索して再生し、ステップ単位のモデルコールを置き換える。
階層的な検索は、100万スケールのルックアップをサブ秒以下に維持し、コストを計算からストレージにシフトさせる。
論文 参考訳(メタデータ) (2025-05-14T00:41:44Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z) - Leveraging Approximate Caching for Faster Retrieval-Augmented Generation [6.674782158041247]
本稿では,ユーザクエリの類似性を活用してRAGワークフローを最適化する,近似キー値キャッシュであるProximityを紹介する。
Proximityは、それぞれのクエリを独立して扱う代わりに、類似したクエリが現れると、以前検索されたドキュメントを再利用する。
我々の実験では、LSH方式と現実的にスキューされたMedRAGのワークロードとの近さは、データベースのリコールとテストの精度を維持しながら、データベース呼び出しを77.2%削減することを示した。
論文 参考訳(メタデータ) (2025-03-07T15:54:04Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。