論文の概要: APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay
- arxiv url: http://arxiv.org/abs/2603.29093v1
- Date: Tue, 31 Mar 2026 00:24:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.959523
- Title: APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay
- Title(参考訳): APEX-EM:構造化手続き型体験リプレイによる自律エージェントのための非パラメトリックオンライン学習
- Authors: Pratyay Banerjee, Masud Moshtaghi, Ankit Chadha,
- Abstract要約: 我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークである textbfAPEX-EM を提案する。
APEX-EMの精度は89.6%、メモリなしでは41.3%(+48.3pp)であり、オラクルと検索の上限を超えている。
BigCodeBenchでは、53.9%のベースライン(+29.4pp)から83.3%のSRに達し、同じ冷凍バックボーン条件下でMemRLのcitememrl2025 +11.0ppを超える。
- 参考スコア(独自算出の注目度): 7.370176470430802
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLM-based autonomous agents lack persistent procedural memory: they re-derive solutions from scratch even when structurally identical tasks have been solved before. We present \textbf{APEX-EM}, a non-parametric online learning framework that accumulates, retrieves, and reuses structured procedural plans without modifying model weights. APEX-EM introduces: (1) a \emph{structured experience representation} encoding the full procedural-episodic trace of each execution -- planning steps, artifacts, iteration history with error analysis, and quality scores; (2) a \emph{Plan-Retrieve-Generate-Iterate-Ingest} (PRGII) workflow with Task Verifiers providing multi-dimensional reward signals; and (3) a \emph{dual-outcome Experience Memory} with hybrid retrieval combining semantic search, structural signature matching, and plan DAG traversal -- enabling cross-domain transfer between tasks sharing no lexical overlap but analogous operational structure. Successful experiences serve as positive in-context examples; failures as negative examples with structured error annotations. We evaluate on BigCodeBench~\cite{zhuo2025bigcodebench}, KGQAGen-10k~\cite{zhang2025kgqagen}, and Humanity's Last Exam~\cite{phan2025hle} using Claude Sonnet 4.5 and Opus 4.5. On KGQAGen-10k, APEX-EM achieves 89.6\% accuracy versus 41.3\% without memory (+48.3pp), surpassing the oracle-retrieval upper bound (84.9\%). On BigCodeBench, it reaches 83.3\% SR from a 53.9\% baseline (+29.4pp), exceeding MemRL's~\cite{memrl2025} +11.0pp gain under comparable frozen-backbone conditions (noting backbone differences controlled for in our analysis). On HLE, entity graph retrieval reaches 48.0\% from 25.2\% (+22.8pp). Ablations show component value is task-dependent: rich judge feedback is negligible for code generation but critical for structured queries (+10.3pp), while binary-signal iteration partially compensates for weaker feedback.
- Abstract(参考訳): LLMベースの自律型エージェントは永続的な手続き記憶に欠けており、構造的に同一のタスクが以前解決された場合でも、スクラッチから解を導出する。
モデル重みを変更することなく、構造化手続き計画の蓄積、検索、再利用を行う非パラメトリックオンライン学習フレームワークである。
APEX-EMでは、(1)手順、アーティファクト、イテレーション履歴、エラー分析、品質スコア、(2)多次元報酬信号を提供するタスク検証器(PRGII)ワークフロー、(3)セマンティック検索、構造的シグネチャマッチング、プランDAGトラバーサルを併用したハイブリッドな検索によるemph{dual-outcome Experience Memory} -- タスク間のクロスドメイン転送を可能にする。
失敗は構造化エラーアノテーションによるネガティブな例である。
我々はClaude Sonnet 4.5 と Opus 4.5 を用いてBigCodeBench~\cite{zhuo2025bigcodebench},KGQAGen-10k~\cite{zhang2025kgqagen},Humanity's Last Exam~\cite{phan2025hle} を評価した。
KGQAGen-10k では、APEX-EM は 89.6\% の精度を 41.3\% (+48.3pp) で達成し、オラクル-検索上界 (84.9\%) を上回っている。
BigCodeBenchでは、53.9\%のベースライン(+29.4pp)から83.3\% SRに達し、MemRLの~\cite{memrl2025} +11.0ppを超える。
HLEでは、エンティティグラフ検索は25.2\% (+22.8pp)から48.0\%に達する。
リッチな判断フィードバックはコード生成には無視できるが、構造化クエリ(+10.3pp)には必須である。
関連論文リスト
- Training LLMs for Multi-Step Tool Orchestration with Constrained Data Synthesis and Graduated Rewards [76.49428173793386]
LLMは、中間出力を伝搬しながら、正しい順序で複数の依存APIを呼び出す必要がある。
既存の環境は、シミュレーションデータを使った単純なターン毎の関数呼び出しとバイナリ報酬に重点を置いている。
まず、実APIレスポンスの大規模キャッシュを背景とした強化学習環境を構築し、有効なマルチステップオーケストレーショントレースをサンプリングするデータ合成パイプラインを実現する。
第二に、正当性を原子の妥当性とオーケストレーションに分解する、段階的な報酬設計を提案する。
論文 参考訳(メタデータ) (2026-03-25T18:31:39Z) - TopoChunker: Topology-Aware Agentic Document Chunking Framework [5.304983617085637]
TopoChunkerは異種文書を構造化中間表現(Structured Intermediate Representation, SIR)にマッピングするエージェントフレームワークである
構造的忠実度と計算コストのバランスをとるため、TopoChunkerはデュアルエージェントアーキテクチャを採用している。
絶対生成精度が8.0%向上し、83.26%のRecall@3を達成し、同時にトークンオーバーヘッドを23.5%削減した。
論文 参考訳(メタデータ) (2026-03-19T02:15:10Z) - Graph-Native Cognitive Memory for AI Agents: Formal Belief Revision Semantics for Versioned Memory Architectures [0.6091702876917279]
Kumihoは、形式的信念修正セマンティクスに基づくグラフネイティブな認知記憶アーキテクチャである。
アーキテクチャは、二重ストアモデル(Redisワーキングメモリ、Neo4j長期グラフ)を実装し、ハイブリッドフルテキストとベクトル検索を備える。
論文 参考訳(メタデータ) (2026-03-18T00:59:49Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - Solver-in-the-Loop: MDP-Based Benchmarks for Self-Correction and Behavioral Rationality in Operations Research [19.31559944205485]
運用 調査実践者は反復的なプロセスを通じて、不可能なモデルを日常的にデバッグする。
評価ループにtextbfsolver を配置するベンチマークを2つ導入する。
ドメイン固有のRLVRトレーニングによって、8BモデルがフロンティアAPIを越えられることが分かりました。
論文 参考訳(メタデータ) (2026-01-28T20:02:44Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - ProofAug: Efficient Neural Theorem Proving via Fine-grained Proof Structure Analysis [50.020850767257095]
本稿では,LLMに様々な粒度で自動化手法を付加するProofAugを提案する。
本手法は,オープンソースのDeep-math-7bベースモデルとIsabelle証明アシスタントを用いて,MiniF2Fベンチマークで検証した。
また、ProofAugのLean 4バージョンを実装し、Kimina-Prover-seek-Distill-1.5Bのパス@1のパフォーマンスを44.3%から50.4%に改善します。
論文 参考訳(メタデータ) (2025-01-30T12:37:06Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Integral Continual Learning Along the Tangent Vector Field of Tasks [112.02761912526734]
本稿では,特殊データセットからの情報を段階的に組み込んだ軽量連続学習手法を提案する。
ソースデータセットの0.4%まで小さく、小さな固定サイズのメモリバッファを保持しており、単純な再サンプリングによって更新される。
提案手法は,異なるデータセットに対して,様々なバッファサイズで高い性能を実現する。
論文 参考訳(メタデータ) (2022-11-23T16:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。