論文の概要: Episodic-Semantic Memory Architecture for Long-Horizon Scientific Agents
- arxiv url: http://arxiv.org/abs/2605.17625v1
- Date: Sun, 17 May 2026 19:44:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.234459
- Title: Episodic-Semantic Memory Architecture for Long-Horizon Scientific Agents
- Title(参考訳): 長期科学的エージェントのためのエピソード・セマンティック記憶構造
- Authors: Nikola Milosevic,
- Abstract要約: 長期統合知識(約3トークン/メッセージ)から即時エピソードニーズ(インスタント10メッセージウィンドウ)を分離するデュアルプロセス記憶アーキテクチャを評価する。
より少ないトークン(45,434対12000以上の制限)で1-2秒のレイテンシで70~85%の精度を維持している。
連続記憶を保ちながら現実的な線形成長(約3トークン/メッセージ)を示す「最小から最小の」ギャップを同定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As Large Language Models (LLMs) evolve into persistent scientific collaborators, context window saturation has emerged as a critical bottleneck. Scientific workflows involving iterative data analysis and hypothesis refinement rapidly saturate even extended contexts with dense technical content, while monolithic approaches suffer from quadratic cost scaling and cognitive degradation. We evaluate a Dual Process Memory Architecture that decouples immediate episodic needs (constant 10-message window) from long-term consolidated knowledge (growing at approximately 3 tokens/message). Unlike prior social agent memory systems, our domain-specific consolidation addresses contradictory parameter evolution, multi-hop reasoning across experimental phases, and precise technical fact retention. Through large-scale evaluation spanning 15,000 messages with cross-model validation across six LLMs from three families (OpenAI, Anthropic, Google), totaling 1,440 queries, we establish three key findings. First, while full-context models fail at 10,000 messages due to context overflow, our system maintains 70-85% accuracy with 1-2 second latency using 62% fewer tokens (45,434 vs 120,000+ limit). Second, cross-model validation reveals architecture-level trade-offs independent of specific LLMs: Dual Process excels at numeric/temporal queries (65-90% accuracy) while RAG excels at historical retrieval (60-85%), suggesting complementary deployment strategies. Third, we identify a "Sim-to-Real" gap where synthetic tests maintain constant memory but realistic workflows exhibit linear growth (about 3 tokens/message), with consolidation quality emerging as the primary scalability bottleneck. The architecture successfully manages profiles with 14,000+ scientific facts (125k tokens), demonstrating that domain-specific memory consolidation enables sustained operation beyond full-context limits.
- Abstract(参考訳): 大規模言語モデル(LLM)が永続的な科学的協力者へと進化するにつれ、コンテキストウィンドウ飽和が重要なボトルネックとして現れてきた。
反復的なデータ分析と仮説の洗練を含む科学的ワークフローは、拡張されたコンテキストを高密度な技術コンテンツで急速に飽和させ、モノリシックなアプローチは二次的なコストスケーリングと認知的劣化に悩まされる。
我々は,長期統合知識(約3トークン/メッセージ)から即時エピソードニーズ(インスタント10メッセージウィンドウ)を分離するデュアルプロセスメモリアーキテクチャを評価した。
従来のソーシャルエージェントメモリシステムとは異なり、ドメイン固有の統合は、相反するパラメータ進化、実験段階にわたるマルチホップ推論、そして正確な技術的事実保持に対処する。
3つのファミリー(OpenAI, Anthropic, Google)から6つのLSMにまたがって、15,000のメッセージにクロスモデル検証を施した大規模な評価を行うことで、合計1,440のクエリで、3つの重要な結果が得られた。
まず、コンテキストオーバーフローによって1万のメッセージでフルコンテキストモデルがフェールするのに対して、私たちのシステムは、トークンを62%削減(45,434対120,000以上の制限)して、1-2秒のレイテンシで70~85%の精度を維持しています。
次に、クロスモデル検証では、特定のLLMに依存しないアーキテクチャレベルのトレードオフを明らかにしている。 デュアルプロセスは数値/時間クエリ(65~90%の精度)で、RAGは履歴検索(60~85%)で、補完的なデプロイメント戦略を提案する。
第三に、合成テストが一定のメモリを維持するが、現実的なワークフローは線形な成長(約3トークン/メッセージ)を示し、統合品質が主要なスケーラビリティのボトルネックとして出現する"最小から最小の"ギャップを特定します。
このアーキテクチャは、14,000以上の科学的事実(125kトークン)を持つプロファイルをうまく管理し、ドメイン固有のメモリ統合が完全なコンテキスト制限を超えて持続的な操作を可能にすることを示した。
関連論文リスト
- Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory [76.63021613850093]
我々は、生涯にわたるAIエージェントのための統合マルチモーダルメモリフレームワークであるOmni-SimpleMemを発見するために、自律的な研究パイプラインをデプロイする。
システムは2つのベンチマークで最先端を実現し、LoCoMoではF1を+411%改善し、Mem-Galleryでは+214%向上した。
本稿では,6種類の発見型を分類し,特に自動検索に適したマルチモーダルメモリを実現する4つの特性を同定する。
論文 参考訳(メタデータ) (2026-04-01T15:06:23Z) - Mitigating LLM Hallucinations through Domain-Grounded Tiered Retrieval [0.0]
大型言語モデル (LLM) は前例のない流布を達成したが、「幻覚」の影響を受けないままである。
本研究では,LLMをパターンマッチングから真偽探索へシフトさせることにより,事実不正確さを検知する階層型検索・検証アーキテクチャを提案する。
システムは5つの多様なベンチマークから650のクエリで評価された。
論文 参考訳(メタデータ) (2026-03-18T15:59:30Z) - Bridging Temporal and Textual Modalities: A Multimodal Framework for Automated Cloud Failure Root Cause Analysis [0.0]
本稿では,事前学習した言語モデル埋め込み空間と時系列表現を調和させる診断フレームワークを提案する。
本フレームワークは,複合障害モードを含むシナリオにおいて,48.75%の精度で診断精度を向上する。
論文 参考訳(メタデータ) (2026-01-08T08:20:44Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - BRIDGE: Building Representations In Domain Guided Program Verification [67.36686119518441]
BRIDGEは、検証をコード、仕様、証明の3つの相互接続ドメインに分解する。
提案手法は, 標準誤差フィードバック法よりも精度と効率を著しく向上することを示す。
論文 参考訳(メタデータ) (2025-11-26T06:39:19Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Evaluating the Use of LLMs for Documentation to Code Traceability [3.076436880934678]
大規模言語モデルは、様々なソフトウェアドキュメンテーションとソースコードの間のトレースリンクを確立することができる。
私たちは2つのオープンソースプロジェクト(Unity CatalogとCrawl4AI)から2つの新しいデータセットを作成します。
その結果、最高の性能のLLMは2つのデータセットで79.4%と80.4%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-06-19T16:18:53Z) - Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory [0.5584627289325719]
大規模言語モデル(LLM)は、文脈的に一貫性のある応答を生成する際、顕著な進歩を示した。
しかし、それらの固定されたコンテキストウィンドウは、長時間のマルチセッション対話に対する一貫性を維持するための根本的な課題を生じさせる。
私たちはMem0というスケーラブルなメモリ中心アーキテクチャを導入し、進行中の会話から健全な情報を動的に抽出し、統合し、取得することでこの問題に対処します。
論文 参考訳(メタデータ) (2025-04-28T01:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。