論文の概要: AgentIR: A Workload-Adaptive Cascade Retrieval Substrate for Long-Term Conversational Memory
- arxiv url: http://arxiv.org/abs/2605.25092v1
- Date: Sun, 24 May 2026 14:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.753075
- Title: AgentIR: A Workload-Adaptive Cascade Retrieval Substrate for Long-Term Conversational Memory
- Title(参考訳): AgentIR: 長期会話記憶のためのワークロード適応カスケード検索基板
- Authors: Aojie Yuan, Haiyue Zhang, Shahin Nazarian,
- Abstract要約: Luceneクラスのエンジンはインデックスを静的として扱い、クエリをステートレスとして扱う。
カスケードルータはBM25のトップクマージンのみから決定され、再トレーニングせずにワークロードをまたがって再チューニングされる。
共有8コアVMのキャパシティは154から1,400のコンカレントエージェント(9倍)に向上する
- 参考スコア(独自算出の注目度): 1.8479558716666358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-term conversational memory is a retrieval workload classical IR was not built for: the index grows during the query stream, query types shift intra-session, and the latency budget per retrieval is sub-10 ms. Lucene-class engines treat the index as static and the query as stateless, leaving the workload's structure unexploited. AgentIR treats fusion as a per-query decision along two axes: which fusion to apply (BM25, Dense, RRF, or agent-aware RRF), and whether the ~52 ms dense channel is worth running at all. The second axis is a confidence-triggered cascade router that decides from the BM25 top-k margin alone and re-tunes across workloads without retraining. On LongMemEval (n=500), where the dense channel does add information, the cascade skips 63% of queries at parity LLM-judged accuracy (2.67x faster under two judges, paired bootstrap p>=0.88); per-qtype thresholds extend this to 5.76x under 5-fold cross-validation. On LoCoMo (n=1,982), where BM25 alone is already the strongest single system, the same trigger auto-tunes to a 100% skip rate (132x faster, +0.089 Hit@5). Capacity on a shared 8-core VM rises from ~154 to ~1,400 concurrent agents (9x). Underneath the cascade, a time-partitioned index does O(log 1/epsilon) work independent of corpus size: 1234x corpus growth costs only 3.6x latency, ending in 1769x over sequential at sub-100 us p50 on 5M records. At parity quality with Lucene on 9 BEIR datasets up to 8.8M docs, the substrate runs 10x geo-mean over Pyserini 8T and 11x over PISA-1T BlockMax-WAND; an A100 reaches 1.8-39x over Pyserini 8T; chunked index build sustains 56.8K docs/sec on MS MARCO. Three subtle BM25/GPU correctness pitfalls that silently regress nDCG@10 by 6-8x are documented and fixed; post-fix CPU and GPU agree within 0.0002 nDCG@10 on all eight datasets that fit a single A100.
- Abstract(参考訳): クエリストリーム中にインデックスが増加し、クエリタイプがセッション内でシフトし、検索毎のレイテンシ予算が10ms未満である。
AgentIRは融合を2つの軸(BM25, Dense, RRF, エージェント認識RF)に沿ったクエリごとの判定として扱う。
第2の軸は、BM25のトップKのマージンのみから決定し、再トレーニングせずにワークロードをまたがる再チューニングを行う、信頼性トリガー付きカスケードルータである。
密度の高いチャネルが情報を付加するLongMemEval (n=500)では、カスケードはパリティのLSM-judged精度で63%のクエリをスキップする(2つの判断で2.67倍速く、ペア化されたブートストラップp>=0.88)。
LoCoMo (n=1,982)では、BM25がすでに最強のシングルシステムであり、同じトリガーが100%スキップレート(+0.089 Hit@5)に自動チューニングされる。
共有8コアVMのキャパシティは154から1,400のコンカレントエージェント(9x)に上昇する。
カスケードの下の時間分割インデックスでは、O(log 1/epsilon)はコーパスサイズとは無関係に動作する: 1234xコーパスの成長コストは3.6倍であり、500Mレコード上では100 us p50のシーケンシャルで1769xで終わる。
9つのBEIRデータセットのLuceneと同等品質では、Pyserini 8Tで10倍、PISA-1T BlockMax-WANDで11倍、A100はPyserini 8Tで1.8-39倍、チャンクインデックスビルドはMS MARCOで56.8Kのドキュメント/secを持続する。
3つの微妙なBM25/GPU正当性落とし穴は、nDCG@10を6~8倍に静かに後退させ、文書化され、修正される。
関連論文リスト
- MISA: Mixture of Indexer Sparse Attention for Long-Context LLM Inference [75.41426145782751]
本稿では,DSAインデクサのリプレースとして,インデクサヘッドをエキスパートの混合プールとして扱うDSAインデクサを提案する。
MISAはロングベンチの密度の高いDSAインデクサとDeepSeek-V3.2とGLM-5で一致し、それぞれ8倍と4倍のインデクサヘッドで動作している。
私たちのTileLangカーネルは、単一のNVIDIA H200 GPU上で、DSAのオリジナルのインデクサカーネルの約3.82倍のスピードアップを実現しています。
論文 参考訳(メタデータ) (2026-05-08T07:19:34Z) - More Is Not Always Better: Cross-Component Interference in LLM Agent Scaffolding [4.738949927143789]
LLMエージェントシステムは、コンポーネント(計画、ツール、メモリ、自己回帰、検索)を積み重ねて構築される
We run a full factorial experiment on all 25=32 subsets of five components on HotpotQA and GSM8K with Llama-3.1-8B/70B conditions。
シングルツールエージェントのHotpotQAは、All-Inを32%上回る(F1 0.233 vs 0.177, p23)。
以上の結果から,最大装備エージェントは相互作用認識分析によりサブセット選択に置き換えるべきであることが示唆された。
論文 参考訳(メタデータ) (2026-05-07T06:01:43Z) - Delta-Based Neural Architecture Search: LLM Fine-Tuning via Code Diffs [48.83701310501069]
大規模言語モデル(LLM)は、ニューラルアーキテクチャ生成の強力な可能性を示している。
既存のアプローチは、ゼロから完全なモデル実装を生成します。
我々はデルタ符号生成法を提案し、細調整されたLLMはコンパクトな統一差分を生成する。
論文 参考訳(メタデータ) (2026-05-06T13:32:05Z) - Benchmarking Complex Multimodal Document Processing Pipelines: A Unified Evaluation Framework for Enterprise AI [0.0]
私たちはEnterpriseDocBenchを構築し、忠実さのパース、インデックス化の効率、検索の妥当性、生成の基盤化を推し進めました。
BM25、密封、ハイブリッドの3つのパイプラインを、すべて同じGPT-5ジェネレータで実行しました。
事実的正確性は85.5%だが、答えの完全性の平均は0.40である。
論文 参考訳(メタデータ) (2026-04-29T07:48:41Z) - ZenBrain: A Neuroscience-Inspired 7-Layer Memory Architecture for Autonomous AI Systems [51.56484100374058]
LongMemEval-500では、ZenBrainは長いコンテキストのオラクルのバイナリ・ジャッジの精度を4.5pp以内と一致させる。
ZenBrainは7層の神経科学にインスパイアされたメモリアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-26T20:39:19Z) - vstash: Local-First Hybrid Retrieval with Adaptive Fusion for LLM Agents [0.0]
ベクトル類似性検索と全文キーワードマッチングを組み合わせたローカルファーストの文書メモリシステム**vstash**を提案する。
すべてのデータはsqlite-vecを使って近傍の検索に近づき、FTS5でキーワードマッチングを行う単一のファイルに格納される。
論文 参考訳(メタデータ) (2026-04-16T19:22:58Z) - SelRoute: Query-Type-Aware Routing for Long-Term Conversational Memory Retrieval [0.0]
SelRouteは、クエリタイプに基づいて、各クエリを専用のパイプラインにルーティングするフレームワークである。
LongMemEval_Mでは、bge-base-en-v1.5 (109Mパラメータ)で0.800、bge-small-en-v1.5 (109Mパラメータ)で0.786のRecall@5を達成する。
FTS5のみを使用したゼロMLベースラインは0.692のNDCG@5を達成する。
論文 参考訳(メタデータ) (2026-04-02T18:02:59Z) - Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels [83.99688944263843]
DoRA(Weight-De Low-Rank Adaptation)は、LoRAを方向から分離することで拡張する。
d_in = 8192 とランク r = 384 では、単一のモジュールのノルムは bf16 で512MB の過渡的なワーキングメモリを必要とする。
因子ノルムは、二乗ノルムを O(d_out r + r2) 中間体を通して計算可能な基底、交差、およびグラマー項に分解し、密積を除去する。
論文 参考訳(メタデータ) (2026-03-23T17:57:24Z) - Chronicals: A High-Performance Framework for LLM Fine-Tuning with 3.51x Speedup over Unsloth [0.0]
Unsloth上で3.5倍のスピードアップを実現したオープンソースのトレーニングフレームワークであるCentralsを紹介します。
オンラインのソフトマックスの正しさ、FlashAttention IO complexity O(N2 d2 M-1)、LoRA+学習速度勾配近似など、完全な数学的基礎を提供する。
論文 参考訳(メタデータ) (2026-01-06T00:00:55Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。