論文の概要: SemanticALLI: Caching Reasoning, Not Just Responses, in Agentic Systems
- arxiv url: http://arxiv.org/abs/2601.16286v1
- Date: Thu, 22 Jan 2026 19:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.387595
- Title: SemanticALLI: Caching Reasoning, Not Just Responses, in Agentic Systems
- Title(参考訳): SemanticALLI: エージェントシステムにおけるキャッシング推論
- Authors: Varun Chillara, Dylan Kline, Christopher Alvares, Evan Wooten, Huan Yang, Shlok Khetan, Cade Bauer, Tré Guillory, Tanishka Shah, Yashodhara Dhariwal, Volodymyr Pavlov, George Popstefanov,
- Abstract要約: PMGのマーケティングインテリジェンスプラットフォームのパイプライン対応アーキテクチャであるSemanticALLIを紹介する。
生成をAIR(Analytic Intent Resolution)とVS(Analytic Intent Synthesis)に分解することで、SemanticALLIは中間表現(IR)を第一級のキャッシュ可能なアーティファクトに構造化した。
我々の構造的アプローチは、83.10%のヒット率を達成するための追加のステージである可視化合成ステージを可能にし、4,023 LLMコールを2.66msで通過させる。
- 参考スコア(独自算出の注目度): 4.029672905329379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic AI pipelines suffer from a hidden inefficiency: they frequently reconstruct identical intermediate logic, such as metric normalization or chart scaffolding, even when the user's natural language phrasing is entirely novel. Conventional boundary caching fails to capture this inefficiency because it treats inference as a monolithic black box. We introduce SemanticALLI, a pipeline-aware architecture within Alli (PMG's marketing intelligence platform), designed to operationalize redundant reasoning. By decomposing generation into Analytic Intent Resolution (AIR) and Visualization Synthesis (VS), SemanticALLI elevates structured intermediate representations (IRs) to first-class, cacheable artifacts. The impact of caching within the agentic loop is substantial. In our evaluation, baseline monolithic caching caps at a 38.7% hit rate due to linguistic variance. In contrast, our structured approach allows for an additional stage, the Visualization Synthesis stage, to achieve an 83.10% hit rate, bypassing 4,023 LLM calls with a median latency of just 2.66 ms. This internal reuse reduces total token consumption, offering a practical lesson for AI system design: even when users rarely repeat themselves, the pipeline often does, at stable, structured checkpoints where caching is most reliable.
- Abstract(参考訳): エージェントAIパイプラインは、隠れた非効率性に悩まされる。メトリック正規化やチャートの足場といった同一の中間ロジックを、ユーザの自然言語のフレーズが完全に新規である場合でも、頻繁に再構築する。
従来の境界キャッシュは、推論をモノリシックなブラックボックスとして扱うため、この非効率性を捕捉できない。
冗長推論を運用するために設計された,Alli(PMGのマーケティングインテリジェンスプラットフォーム)内のパイプライン対応アーキテクチャであるSemanticALLIを紹介する。
生成をAIR(Analytic Intent Resolution)とVS(Analytic Intent Synthesis)に分解することで、SemanticALLIは構造化中間表現(IR)を第一級のキャッシュ可能なアーティファクトに高める。
エージェントループ内のキャッシュの影響はかなり大きい。
本評価では, 言語的差異により, ベースラインのモノリシックキャッシングキャップが38.7%のヒット率で上昇した。
対照的に、構造化されたアプローチでは、83.10%のヒット率を達成でき、4,023 LLMコールを最小2.66ミリ秒の中央レイテンシでバイパスすることができる。この内部再利用は、合計トークン使用量を削減し、AIシステム設計の実践的な教訓を提供する。ユーザがほとんど繰り返しない場合でも、パイプラインは、キャッシュが最も信頼性の高い構造化されたチェックポイントで、しばしば行われる。
関連論文リスト
- Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes [10.877713536966601]
Longestahead Prefix(LSP)スケジューラは、モノリシックプレフィックスの吸収に基づく、トレーニング不要でモデルに依存しない推論パラダイムである。
LSPは1つのフォワードパスを介してトークンの安定性を評価し、安定な予測の連続した左整列ブロックを動的に識別する。
原子のコミットメントの前に、言語や構造的受容の境界を画定する。
論文 参考訳(メタデータ) (2026-03-05T18:25:26Z) - Arbor: A Framework for Reliable Navigation of Critical Conversation Flows [0.19573380763700712]
本稿では,決定木ナビゲーションを専門的なノードレベルのタスクに分解するフレームワークであるArborを紹介する。
Abortは平均ターン精度を29.4ポイント改善し、ターン毎のレイテンシを57.1%削減し、ターン毎のコストを平均14.4倍削減する。
論文 参考訳(メタデータ) (2026-02-16T11:09:02Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - ExplicitLM: Decoupling Knowledge from Parameters via Explicit Memory Banks [4.099810580680816]
大規模言語モデルは、暗黙の知識記憶による知識の安定性と解釈性の欠如に悩まされる。
トークンシーケンスとして可読性のある知識を格納する100万スケールの外部メモリバンクを備えた新しいアーキテクチャであるExplicitLMを提案する。
論文 参考訳(メタデータ) (2025-11-03T13:53:19Z) - Latent Chain-of-Thought? Decoding the Depth-Recurrent Transformer [0.8738725605667471]
CoT(Chain-of- Thought)推論は、トランスフォーマーベースの言語モデルで複雑な数学や多段階計画に優れる。
標準的なデコーダのみのアーキテクチャでは、これらの推論ステップは自然言語で外部化され、効率を犠牲にして解釈性を向上させる。
パラメータ数の増加を伴わずに推論時に層を再利用する深度再帰変換器である Huginn-3.5B にそのような推論構造が出現するかどうかを検討する。
論文 参考訳(メタデータ) (2025-07-02T23:35:21Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Dynamic layer selection in decoder-only transformers [21.18795712840146]
自然言語生成のための2つの一般的な動的推論手法を実証的に検討する。
トレーニング済みのデコーダのみのモデルでは,層スキップによる層除去が著しく堅牢であることがわかった。
また、シーケンス毎の動的計算割り当ては、大きな効率向上を約束することを示す。
論文 参考訳(メタデータ) (2024-10-26T00:44:11Z) - EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.510078997414606]
キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。
既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。
位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。
また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文 参考訳(メタデータ) (2024-10-20T08:42:29Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - ARCH: Efficient Adversarial Regularized Training with Caching [91.74682538906691]
逆正則化は、多くの自然言語処理タスクにおけるモデル一般化を改善することができる。
本稿では,複数のエポック毎に摂動を発生・キャッシュする新たな逆正則化手法ARCHを提案する。
提案手法をニューラルネットワーク翻訳と自然言語理解タスクのセットで評価する。
論文 参考訳(メタデータ) (2021-09-15T02:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。