論文の概要: ShardMemo: Masked MoE Routing for Sharded Agentic LLM Memory
- arxiv url: http://arxiv.org/abs/2601.21545v1
- Date: Thu, 29 Jan 2026 11:01:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.751837
- Title: ShardMemo: Masked MoE Routing for Sharded Agentic LLM Memory
- Title(参考訳): ShardMemo:Sharded Agentic LLMメモリ用のMasked MoEルーティング
- Authors: Yang Zhao, Chengxiao Dai, Yue Xiu, Mengying Kou, Yuliang Zheng, Dusit Niyato,
- Abstract要約: エージェント型大規模言語モデル(LLM)システムは、並列なマルチエージェント実行のために外部メモリに依存している。
ShardMemoは、有償の有償メモリサービスであり、アジェント当たりのTier Aワーキングステートを提供する。
Tier Bは、Shard-local Near Near neighbor(ANN)インデックスと、バージョン付きスキルライブラリであるTier Cで証拠をシャーディングした。
- 参考スコア(独自算出の注目度): 42.9791851637462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agentic large language model (LLM) systems rely on external memory for long-horizon state and concurrent multi-agent execution, but centralized indexes and heuristic partitions become bottlenecks as memory volume and parallel access grow. We present ShardMemo, a budgeted tiered memory service with Tier A per-agent working state, Tier B sharded evidence with shard-local approximate nearest neighbor (ANN) indexes, and Tier C, a versioned skill library. Tier B enforces scope-before-routing: structured eligibility constraints mask ineligible shards before routing or ANN search. We cast shard probing as masked mixture-of-experts (MoE) routing over eligible shards, probing up to $B_{\mathrm{probe}}$ shards via Top-$B_{\mathrm{probe}}$ or adaptive Top-$P$, and use cost-aware gating over profile/observation/session shard families; the router is trained from evidence-to-shard supervision. On LoCoMo, ShardMemo improves over the strongest baseline (GAM) by +5.11 to +6.82 F1 across question categories. Under a fixed-budget routing setting ($B_{\mathrm{probe}}=3$), ShardMemo improves over cosine-to-prototype shard routing by +6.87 F1 while reducing retrieval work (VecScan 521->414, -20.5%) and p95 latency (95->76 ms). On long-context HotpotQA, ShardMemo achieves 63.41/61.88/57.95 F1 at 56K/224K/448K tokens. On ToolBench, Tier C reaches 0.97 Precision@3 and 1.94 StepRed (+10.2% and +7.2% over embedding-similarity retrieval).
- Abstract(参考訳): エージェント型大規模言語モデル(LLM)システムは、長期状態と並列マルチエージェント実行のために外部メモリに依存しているが、集中インデックスとヒューリスティックパーティションは、メモリボリュームと並列アクセスが増加するにつれてボトルネックとなる。
我々は,階層型メモリサービスであるShardMemoとTier Aの作業状態,Tier BがShard-local Near Near Near Near Near neighbor(ANN)インデックス,Tier Cがバージョニングされたスキルライブラリであることを示す。
階層 B はスコープ・バイ・ルーティングを強制する: 構造化された適性制約は、ルーティング前や ANN 検索前に、無資格なシャードをマスクする。
マスク付きミックスオブエキスパート(MoE)ルーティングとしてシャードをキャストし、Top-B_{\mathrm{probe}}$またはアダプティブTop-$P$を介して最大$B_{\mathrm{probe}}$のシャードを探索し、プロファイル/オブザーブレーション/セッションシャードファミリーよりもコスト認識ゲーティングを使用する。
LoCoMoでは、ShardMemoは最強のベースライン(GAM)を+5.11から+6.82 F1に改善している。
B_{\mathrm{probe}}=3$の固定予算ルーティング設定の下で、ShardMemoはコサインからプロトタイプへのシャードルーティングを+6.87 F1で改善し、検索作業(VecScan 521->414, -20.5%)とp95レイテンシ(95->76 ms)を削減した。
長文HotpotQAでは、ShardMemoは56K/224K/448Kトークンで63.41/61.88/57.95 F1を達成した。
ToolBenchでは、Tier C は 0.97 Precision@3 と 1.94 StepRed に到達している(埋め込み類似性検索では +10.2% と +7.2% )。
関連論文リスト
- Superlinear Multi-Step Attention [8.782622621289251]
超線形アテンションは、標準的な因果自己アテンションを、N$ステップの多段階探索問題として再定義する。
超線形アテンションは、標準的な因果自己アテンションを、N$ステップの多段階探索問題として再定義する。
論文 参考訳(メタデータ) (2026-01-26T11:58:42Z) - δ-EMG: A Monotonic Graph Index for Approximate Nearest Neighbor Search [33.62724124122037]
本稿では,クエリ時における近似精度を制御する誤り境界付きANN探索アルゴリズムを提案する。
0.99のリコール条件下では、SIFT1Mデータセット上で19,000QPSを達成し、他の手法よりも40%以上性能が向上する。
論文 参考訳(メタデータ) (2025-11-21T03:20:54Z) - Towards a Linear-Ramp QAOA protocol: Evidence of a scaling advantage in solving some combinatorial optimization problems [0.46040036610482665]
線形ランプQAOAは,様々な最適化問題にまたがる最適解を効率的に近似できることを示す。
最大$N_q = 109$ qubits,$p=100$,21,200 CNOTゲートを必要とする回路を有する複数のQPU上でのLR-QAOAの結果を示す。
論文 参考訳(メタデータ) (2024-05-15T08:07:52Z) - Pre-train and Search: Efficient Embedding Table Sharding with
Pre-trained Neural Cost Models [56.65200574282804]
効率的なシャーディングのための「事前訓練・探索」パラダイムを提案する。
NeuroShardは、さまざまなシャーディングシナリオをカバーするために、拡張テーブル上のニューラルコストモデルをトレーニングする。
NeuroShardは、ベンチマークシャーディングデータセットの最先端を著しく、一貫して上回る。
論文 参考訳(メタデータ) (2023-05-03T02:52:03Z) - Algorithms for Acyclic Weighted Finite-State Automata with Failure Arcs [66.47284608209692]
Oleft(|E| + s |Sigma| |Q| T_textmax log|Sigma|right)$で実行される一般非巡回WFSAのアルゴリズムを提案する。
障害遷移トポロジーがCRFで実証された条件を満たすと、$T_textmax$ factorを落とすことができる。
後者の場合 (ring-weighted acyclic WFSAs) では、$style Oleft(|E| + |Sigma| |) を持つ別のアルゴリズムの複雑さを与える。
論文 参考訳(メタデータ) (2023-01-17T13:15:44Z) - SPANN: Highly-efficient Billion-scale Approximate Nearest Neighbor
Search [39.361122198195076]
本稿では,SPANNというメモリディスクハイブリッドインデックスと検索システムを提案する。
ポストリストのセントロイドポイントをメモリに、大きなポストリストをディスクに格納する。
リコール@1とリコール@10はわずか1ミリ秒で、メモリは32GBだ。
論文 参考訳(メタデータ) (2021-11-05T06:28:15Z) - Prioritized Architecture Sampling with Monto-Carlo Tree Search [54.72096546595955]
ワンショットニューラルアーキテクチャサーチ(NAS)法は,検索空間全体を1つのネットワークとして考えることにより,検索コストを大幅に削減する。
本稿では,モンテカルロ木(MCT)をモデルとした探索空間を用いたモンテカルロ木探索(MCTS)に基づくサンプリング戦略について紹介する。
公平な比較のために、CIFAR-10で評価されたマクロ検索空間、すなわちNAS-Bench-MacroのオープンソースNASベンチマークを構築する。
論文 参考訳(メタデータ) (2021-03-22T15:09:29Z) - Provably Breaking the Quadratic Error Compounding Barrier in Imitation
Learning, Optimally [58.463668865380946]
状態空間 $mathcalS$ を用いたエピソードマルコフ決定過程 (MDPs) における模擬学習の統計的限界について検討する。
rajaraman et al (2020) におけるmdアルゴリズムを用いた準最適性に対する上限 $o(|mathcals|h3/2/n)$ を定式化する。
Omega(H3/2/N)$ $mathcalS|geq 3$ であるのに対して、未知の遷移条件はよりシャープレートに悩まされる。
論文 参考訳(メタデータ) (2021-02-25T15:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。