論文の概要: Statistical Independence Aware Caching for LLM Workflows
- arxiv url: http://arxiv.org/abs/2511.22118v1
- Date: Thu, 27 Nov 2025 05:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.405893
- Title: Statistical Independence Aware Caching for LLM Workflows
- Title(参考訳): LLMワークフローの統計的独立性を考慮したキャッシング
- Authors: Yihan Dai, Dimitrios Stamatios Bouras, Haoxiang Jia, Sergey Mechtaev,
- Abstract要約: 応答の局所キャッシュは、大規模言語モデル(LLM)推論のコストとレイテンシを低減するための実用的なソリューションを提供する。
既存のLLMキャッシュシステムには、統計的独立性の制約を強制する方法がない。
コンポーネントレベルでの統計的整合性を確保しつつ,モジュール式LLMをサポートするキャッシュ設計パターンであるMnimiを導入する。
- 参考スコア(独自算出の注目度): 3.700239041804401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) inference is both expensive and slow. Local caching of responses offers a practical solution to reduce the cost and latency of LLM queries. In research contexts, caching also enhances reproducibility and provides flexibility for experimentation. However, naive reuse of cached responses compromises statistical independence, a critical property for probabilistic workflows. In applications of LLM for code, it underpins performance metrics such as Pass@k and uncertainty estimation, as well as algorithms like program repair loops and retries. Existing LLM caching systems lack ways to enforce statistical independence constraints. To address this, we introduce Mnimi, a cache design pattern that supports modular LLM workflows while ensuring statistical integrity at the component level. Its core innovation lies in encapsulating statistical constraints within the type of LLM references, allowing users to manage and transform these types according to the scope and requirements of their algorithm. We implemented this design pattern in Python using a combination of decorators and iterators over infinite sequences. A case study on SpecFix, an recent automated program specification repair system, highlights how Mnimi improves reproducibility, ease of debugging, time and cost efficiency while preserving statistical correctness.
- Abstract(参考訳): 大規模言語モデル(LLM)推論は高価で遅い。
レスポンスのローカルキャッシュは、LCMクエリのコストとレイテンシを低減するための実用的なソリューションを提供する。
研究の文脈では、キャッシングは再現性を高め、実験に柔軟性を提供する。
しかし、キャッシュされた応答の単純再利用は確率的ワークフローにとって重要な特性である統計的独立性を損なう。
コードに対するLLMの応用においては、Pass@kや不確実性推定といったパフォーマンスメトリクスや、プログラムの修復ループやリトライのようなアルゴリズムを基盤としています。
既存のLLMキャッシュシステムには、統計的独立性の制約を強制する方法がない。
これを解決するために,モジュール式LLMワークフローをサポートするキャッシュ設計パターンであるMnimiを導入し,コンポーネントレベルでの統計的整合性を保証する。
その中核となるイノベーションは、LSM参照のタイプに統計的制約をカプセル化することであり、ユーザはアルゴリズムのスコープと要求に応じてこれらのタイプを管理し、変換することができる。
無限列上のデコレータとイテレータの組み合わせを用いて,この設計パターンをPythonで実装した。
最近の自動プログラム仕様修正システムであるSpecFixのケーススタディでは、Mnimiが統計的正確性を維持しながら再現性、デバッグの容易さ、時間とコスト効率をどのように改善するかを強調している。
関連論文リスト
- Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers [17.658542084440082]
大規模言語モデル(LLM)は,情報検索におけるタスクの再分類に応用され,高い性能を実現している。
既存の研究では、遅延、フォワードパス数、入力トークン、出力トークンなどのプロキシメトリクスを使用して、LCMベースのリランカの効率を評価する。
本稿では、PetaFLOP当たりのランキング品質(例えば、NDCGやMRR)と、PetaFLOP当たりのクエリ数(PetaFLOPあたりのクエリ数)を測るRCPを提案する。
論文 参考訳(メタデータ) (2025-07-08T17:56:28Z) - Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。