論文の概要: LAWS: Learning from Actual Workloads Symbolically -- A Self-Certifying Parametrized Cache Architecture for Neural Inference, Robotics, and Edge Deployment
- arxiv url: http://arxiv.org/abs/2605.04069v1
- Date: Sun, 12 Apr 2026 19:18:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.562603
- Title: LAWS: Learning from Actual Workloads Symbolically -- A Self-Certifying Parametrized Cache Architecture for Neural Inference, Robotics, and Edge Deployment
- Title(参考訳): LAWS: 実際のワークロードから学ぶ - ニューラルネットワーク、ロボティクス、エッジデプロイメントのための、自己認定型並列キャッシュアーキテクチャ
- Authors: Gregory Magarshak,
- Abstract要約: 自己認識型推論キャッシュアーキテクチャであるLAWS(Reearning from Actual Workloads Symbolically)を紹介した。
各専門家は、ベースモデルの確率言語トライ(PLT)のノードによって定義された入力空間の領域をカバーし、全ての入力に対して一様に保持される形式的なエラーを持つ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LAWS (Learning from Actual Workloads Symbolically), a self-certifying inference caching architecture that builds a growing library of certified expert functions from deployment observations. Each expert covers a region of input space defined by a node in the Probabilistic Language Trie (PLT) of the base model and carries a formal error bound holding uniformly over all inputs. The central result is a self-certification theorem: for any input x, the LAWS approximation error is bounded by epsilon_fit + 2*Lambda(W)*C_E, where Lambda(W) is the model Lipschitz constant, C_E is the maximum embedding diameter, and epsilon_fit is the expert training error -- all checkable at deployment time without ground truth. We prove that LAWS generalizes both Mixture-of-Experts and KV prefix caching as special cases and is strictly more expressive than any fixed-K MoE or finite cache. Further results include a monotone hit rate theorem (any-match routing ensures coverage only increases), an expert library growth rate of O(2^H log N) where H is workload entropy, a fleet learning convergence theorem with Omega(K) speedup for K-unit fleets, and an over-the-air update bandwidth bound. We conjecture that LAWS is acquisition-optimal among stationary online caching algorithms and that the effective Lipschitz constant on the training distribution grows polynomially rather than exponentially in depth. Applications are developed for LLM inference, robotic control, and multi-agent edge deployment.
- Abstract(参考訳): LAWS (Learning from Actual Workloads Symbolically)は,デプロイメントの観察から,認定専門家関数のライブラリが増大する中で,自己証明型推論キャッシュアーキテクチャである。
各専門家は、ベースモデルの確率言語トライ(PLT)のノードによって定義された入力空間の領域をカバーし、全ての入力に対して一様に保持される形式的なエラーを持つ。
任意の入力 x に対して LAWS 近似誤差は epsilon_fit + 2*Lambda(W)*C_E で束縛され、Lambda(W) はモデルリプシッツ定数、C_E は最大埋め込み径、epsilon_fit はエキスパートトレーニング誤差である。
LAWSはMixture-of-ExpertsとKVプレフィックスキャッシュの両方を特別なケースとして一般化しており、固定K MoEや有限キャッシュよりも厳密に表現可能であることを証明している。
さらに、モノトーンヒット率定理(任意のマッチルーティングはカバレッジのみを増大させる)、HがワークロードエントロピーであるO(2^H log N)の専門的なライブラリ成長率、KユニットのOmega(K)スピードアップによる艦隊学習収束定理、無線更新帯域幅境界などがある。
我々は,LAWSが定常オンラインキャッシュアルゴリズムの獲得最適であり,トレーニング分布における有効リプシッツ定数は指数関数的にではなく多項式的に増加すると推測する。
LLM推論、ロボット制御、マルチエージェントエッジ展開のためのアプリケーションが開発されている。
関連論文リスト
- A Queueing-Theoretic Framework for Stability Analysis of LLM Inference with KV Cache Memory Constraints [4.636275494777427]
計算とGPUメモリの制約を明示的に組み込んだ最初の待ち行列理論フレームワークを紹介した。
我々は,LLM推論サービスが待ち行列の成長を伴わずに着信需要を維持できるかどうかを判断する厳密な安定性と不安定性条件を導出する。
以上の結果から, 予測安定性条件は精度が高く, 偏差が10%以内であることが示唆された。
論文 参考訳(メタデータ) (2026-05-06T07:42:26Z) - Latent-Condensed Transformer for Efficient Long Context Modeling [60.72493959155964]
大規模言語モデルに対するLCA(Latent-Condensed Attention)を提案する。
LCAはMLAの潜伏空間内のコンテキストを凝縮し、表現はセマンティック潜伏ベクトルと位置キーに切り離される。
LCAは、最大2.5$times$プリフィルスピードアップと128Kコンテキストでの90%のKVキャッシュ削減を実現している。
論文 参考訳(メタデータ) (2026-04-14T08:40:31Z) - Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse [0.0]
列上の任意の生成確率モデルによって暗黙的に定義されたプレフィックス構造を明示する統一表現であるLanguage Try (PLTs)を導入する。
また,任意のデータセットをカバー多数とスパース残量ストアに分解するハイブリッド圧縮アーキテクチャを導入し,Kolmogorov型プログラム表現とレート歪み理論を接続する。
論文 参考訳(メタデータ) (2026-03-29T21:24:26Z) - Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes [10.877713536966601]
Longestahead Prefix(LSP)スケジューラは、モノリシックプレフィックスの吸収に基づく、トレーニング不要でモデルに依存しない推論パラダイムである。
LSPは1つのフォワードパスを介してトークンの安定性を評価し、安定な予測の連続した左整列ブロックを動的に識別する。
原子のコミットメントの前に、言語や構造的受容の境界を画定する。
論文 参考訳(メタデータ) (2026-03-05T18:25:26Z) - Sparse Semantic Dimension as a Generalization Certificate for LLMs [53.681678236115836]
Sparse Semantic Dimension (SSD)は,モデル層上で訓練されたSparse Autoencoder (SAE)のアクティブな特徴語彙から導かれる複雑性尺度である。
我々はGPT-2 Small と Gemma-2B でこの枠組みを検証し、実際のサンプルサイズで非空き証明書を提供することを実証した。
論文 参考訳(メタデータ) (2026-02-11T21:45:18Z) - ECLipsE-Gen-Local: Efficient Compositional Local Lipschitz Estimates for Deep Neural Networks [4.752559512511423]
リプシッツ定数は、摂動を入力するためのニューラルネットワークの堅牢性を証明するための鍵となる尺度である。
リプシッツ定数を推定する標準的な手法は、ネットワークサイズに劣る大きな行列半定プログラム(SDP)を解くことである。
本稿では,ディープフィードフォワードニューラルネットワークに対するタイトでスケーラブルなリプシッツ推定を行う合成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-06T18:26:46Z) - Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache [67.47789629197857]
本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。
フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。
本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
論文 参考訳(メタデータ) (2025-06-13T15:35:54Z) - SHOT: Suppressing the Hessian along the Optimization Trajectory for
Gradient-Based Meta-Learning [28.26143547479141]
SHOT(Suppressing the Hessian along the Optimization Trajectory)と呼ばれるアルゴリズムを導入する。
SHOTはベースラインモデルの計算複雑性をあまり増やさない。
本仮説を実証的に検証し,SHOTが対応するベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-04T11:43:08Z) - Training Certifiably Robust Neural Networks with Efficient Local
Lipschitz Bounds [99.23098204458336]
認証された堅牢性は、安全クリティカルなアプリケーションにおいて、ディープニューラルネットワークにとって望ましい性質である。
提案手法は,MNISTおよびTinyNetデータセットにおける最先端の手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-11-02T06:44:10Z) - On the Practicality of Differential Privacy in Federated Learning by
Tuning Iteration Times [51.61278695776151]
フェデレートラーニング(FL)は、分散クライアント間で機械学習モデルを協調的にトレーニングする際のプライバシ保護でよく知られている。
最近の研究では、naive flは勾配リーク攻撃の影響を受けやすいことが指摘されている。
ディファレンシャルプライバシ(dp)は、勾配漏洩攻撃を防御するための有望な対策として現れる。
論文 参考訳(メタデータ) (2021-01-11T19:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。