論文の概要: Why Agent Caching Fails and How to Fix It: Structured Intent Canonicalization with Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2602.18922v1
- Date: Sat, 21 Feb 2026 18:25:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.3983
- Title: Why Agent Caching Fails and How to Fix It: Structured Intent Canonicalization with Few-Shot Learning
- Title(参考訳): エージェントキャッシングが機能しない理由と対処方法--簡単なショット学習による構造的直観的正準化
- Authors: Abhinaba Basu,
- Abstract要約: キャッシュの有効性は、分類精度ではなく、キーの一貫性と精度を必要とする。
構造化意図分解フレームワークであるW5H2を紹介する。
NyayaBench v2 (20クラス)では、SetFitは55.3%を達成し、30言語にまたがる言語間転送を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personal AI agents incur substantial cost via repeated LLM calls. We show existing caching methods fail: GPTCache achieves 37.9% accuracy on real benchmarks; APC achieves 0-12%. The root cause is optimizing for the wrong property -- cache effectiveness requires key consistency and precision, not classification accuracy. We observe cache-key evaluation reduces to clustering evaluation and apply V-measure decomposition to separate these on n=8,682 points across MASSIVE, BANKING77, CLINC150, and NyayaBench v2, our new 8,514-entry multilingual agentic dataset (528 intents, 20 W5H2 classes, 63 languages). We introduce W5H2, a structured intent decomposition framework. Using SetFit with 8 examples per class, W5H2 achieves 91.1%+/-1.7% on MASSIVE in ~2ms -- vs 37.9% for GPTCache and 68.8% for a 20B-parameter LLM at 3,447ms. On NyayaBench v2 (20 classes), SetFit achieves 55.3%, with cross-lingual transfer across 30 languages. Our five-tier cascade handles 85% of interactions locally, projecting 97.5% cost reduction. We provide risk-controlled selective prediction guarantees via RCPS with nine bound families.
- Abstract(参考訳): パーソナルAIエージェントは、繰り返しLLMコールによってかなりのコストを発生させる。
GPTCacheは実際のベンチマークで37.9%の精度を達成し、APCは0-12%の精度を達成した。
キャッシュの有効性は、分類精度ではなく、キーの一貫性と精度を必要とする。
我々はキャッシュキーの評価をクラスタリング評価に還元し,これらをMASSIVE,BANKING77,CLINC150,NyayaBench v2のn=8,682点で分離するためにV値分解を適用し,新しい8,514エントリ多言語エージェントデータセット(528インテント,20 W5H2クラス,63言語)を作成した。
構造化意図分解フレームワークであるW5H2を紹介する。
クラスごとに8つの例でSetFitを使用すると、W5H2は2msでMASSIVEで91.1%以上/-1.7%、GPTCacheで37.9%、20Bパラメータで3,447msで68.8%となる。
NyayaBench v2 (20クラス)では、SetFitは55.3%を達成し、30言語にまたがる言語間転送を実現している。
私たちの5層カスケードは、局所的な相互作用の85%を処理し、97.5%のコスト削減を予測している。
リスク制御された選択予測保証を,9家族のRCPSを介して提供する。
関連論文リスト
- Time-Series at the Edge: Tiny Separable CNNs for Wearable Gait Detection and Optimal Sensor Placement [3.7765281299298015]
我々は,3軸加速度の短い窓から発生するパーキンソン病(PD)の歩行検出のためのデバイス上での時系列解析について検討した。
1つの文献ベースライン(分離可能な畳み込み)と2つのウルトラライトモデル(純粋に分離可能なもの)である。
論文 参考訳(メタデータ) (2025-11-29T08:52:41Z) - Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training [0.0]
本研究は、衛星土地利用分類のための独自の畳み込みニューラルネットワークアーキテクチャを体系的に研究する。
事前訓練されたモデルに依存することなく、EuroSATデータセット上で97.23%のテスト精度を達成する。
我々の手法は、外部データを必要としない微調整されたResNet-50(98.57%)の1.34%で性能を達成する。
論文 参考訳(メタデータ) (2025-10-17T10:59:24Z) - Learnable Conformal Prediction with Context-Aware Nonconformity Functions for Robotic Planning and Perception [4.694504497452662]
Learnable Conformal Predictionは、固定スコアを軽量なニューラル関数に置き換えて、コンテキスト認識の不確実性セットを生成する。
CPの理論的保証を維持しつつ、予測セットのサイズを18%減らし、検出間隔を52%減らし、経路計画の安全性を72%から91%に改善し、オーバーヘッドを最小限に抑えている。
ハードウェア評価では、LCPは1%未満のメモリと15.9%の推論オーバーヘッドを追加したが、検出タスクでは39 FPSを維持し、アンサンブルの7.4倍のエネルギー効率を保っている。
論文 参考訳(メタデータ) (2025-09-26T06:44:58Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - SINF: Semantic Neural Network Inference with Semantic Subgraphs [3.767257257405998]
本稿では,新しい識別能力スコア(DCS)に基づくディープニューラルネットワーク(DNN)における意味的部分グラフを生成するセマンティック推論(SINF)を提案する。
CIFAR100とImageNetデータセットのサブセットを用いて訓練したVGG16,VGG19,ResNet50 DNNの性能評価を行った。
論文 参考訳(メタデータ) (2023-10-02T14:51:10Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z) - PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices [13.62426382827205]
実時間物体検出器のPP-PicoDetファミリは,モバイルデバイスの物体検出において優れた性能を発揮する。
モデルは、他の一般的なモデルと比較して、精度とレイテンシのトレードオフを改善する。
論文 参考訳(メタデータ) (2021-11-01T12:53:17Z) - Comment on Stochastic Polyak Step-Size: Performance of ALI-G [104.83776736573009]
ALI-GとSPSはどちらも、機械学習モデルを最適化するためにPolyakのステップサイズを適応したものである。
CIFAR-10 と CIFAR-100 で ResNet-34 のトレーニングを行う場合,ALI-G は 93.5% (+6%) と 76% (+8%) と非常に少ないチューニングでそれぞれ到達可能であることを示す。
論文 参考訳(メタデータ) (2021-05-20T19:57:34Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。