論文の概要: Joint Agent Memory and Exploration Learning via Novelty Signals
- arxiv url: http://arxiv.org/abs/2606.01528v1
- Date: Mon, 01 Jun 2026 01:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.769811
- Title: Joint Agent Memory and Exploration Learning via Novelty Signals
- Title(参考訳): 新規信号を用いた共同エージェント記憶と探索学習
- Authors: Shizuo Tian, Xiaohong Weng, Rui Kong, Yuxuan Chen, Guohong Liu, Yuebing Song, Jiacheng Liu, Yuchen Li, Dawei Yin, Ting Cao, Yunxin Liu, Yuanchun Li,
- Abstract要約: オープンエンド環境では、自律的なエージェントのための探索が基本である。
textbfJoint textbfAgent textbfMemory と textbfExploration textbfLearning (textbfJAMEL) を導入する。
textbfJAMELは、新しいインタラクションを通じてエージェントメモリと探索ポリシーを一緒に訓練するフレームワークである。
- 参考スコア(独自算出の注目度): 46.41306111727712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In open-ended environments, exploration is fundamental for autonomous agents, yet current language model agents struggle with this. Effective exploration requires memory, but retaining raw interaction histories is computationally expensive over long trajectories. While latent memory offers a solution to compress interaction histories, its training lacks reliable supervisory signals. We introduce \textbf{J}oint \textbf{A}gent \textbf{M}emory and \textbf{E}xploration \textbf{L}earning (\textbf{JAMEL}), a framework that trains agentic memory and exploration policy together through novelty-driven interaction. We observe that memory and exploration form a mutually dependent loop: sustained exploration requires memory to distinguish exhausted behaviors from unseen ones, while novelty-seeking interaction provides the supervision needed to make memory useful for future exploration. By utilizing deterministic and persistent novelty signals such as code coverage in the GUI domain, we provide natural, annotation-free supervision for the memory module. Empirical evaluations demonstrate that \ours successfully generalizes to unseen environments. Its exploration capability outperforms open-weight baselines and rivals the exploration depth of a closed-source model while reducing token consumption. Our code and model are open-sourced at https://github.com/MobileLLM/JAMEL.
- Abstract(参考訳): オープンエンド環境では、自律的なエージェントにとって探索は基本的だが、現在の言語モデルエージェントはこれに苦慮している。
効果的な探索には記憶が必要だが、生の相互作用履歴を保持することは長い軌跡よりも計算に費用がかかる。
遅延メモリは相互作用履歴を圧縮するソリューションを提供するが、そのトレーニングには信頼できる監視信号が欠けている。
本稿では, エージェントメモリと探索ポリシーを協調的に学習するフレームワークである \textbf{J}oint \textbf{A}gent \textbf{M}emory と \textbf{E}xploration \textbf{L}earning (\textbf{JAMEL}) を紹介する。
我々は、記憶と探索が相互依存のループを形成することを観察する:持続的な探索は、枯渇した行動と見えない行動とを区別するために記憶を必要とする。
GUIドメインのコードカバレッジのような決定論的で永続的な新規性信号を利用することで、メモリモジュールに対して自然な、アノテーションなしの監視を提供する。
経験的評価は、‘ours’が目に見えない環境への一般化に成功していることを示している。
その探索能力はオープンウェイトベースラインよりも優れており、トークン消費を減らしながらクローズドソースモデルの探索深度に匹敵する。
私たちのコードとモデルはhttps://github.com/MobileLLM/JAMEL.comでオープンソース化されています。
関連論文リスト
- Active Exploring like a Pigeon: Reinforcing Spatial Reasoning via Agentic Vision-Language Models [17.24700274670692]
既存のアプローチでは、空間言語モデル(VLM)を受動的オブザーバとして扱うが、現実のアプリケーションでは難しい。
そこで本研究では,ハトによるナビゲーションのための認知マップの構築と活用に着想を得て,空間推論のための新しいエージェントパイプラインを提案する。
VisionCubeベンチマークの実験では、emph80.5%の精度で最先端のパフォーマンスを示し、emph29.5の精度ポイントで最高の電流法を上回った。
論文 参考訳(メタデータ) (2026-06-01T16:30:56Z) - SAM: State-Adaptive Memory for Long-Horizon Reasoning Agent [51.274445160155864]
ロングホライゾンのエージェント推論は、思考、ツールコール、観察、部分的な結論を含む長い相互作用履歴を通して行動するために大きな言語モデルを必要とする。
既存のアプローチでは、インタラクション履歴の切り抜き、短いサロゲートに圧縮、あるいは再利用のために選択した部分を取得することで、この問題に対処している。
我々は、インテント駆動リコールのための生のトラジェクトリページを保持しながら、継続的なインタラクションをコンパクトなメモリキューに統合するスタンドアロンフレームワークであるState-Adaptive Memoryを提案する。
論文 参考訳(メタデータ) (2026-05-23T08:37:16Z) - AnchorMem: Anchored Facts with Associative Contexts for Building Memory in Large Language Models [22.304693716449112]
既存のメモリメソッドは、頻繁に書き換えることによるインタラクションの整理に過度に重点を置いている。
本稿では,認知科学におけるPust Phenomenonに触発された新しい記憶フレームワークであるAnchorMemを紹介する。
本手法は,インタラクションの文脈的整合性によるきめ細かな検索を再現する。
論文 参考訳(メタデータ) (2026-04-19T11:02:08Z) - PASK: Toward Intent-Aware Proactive Agents with Long-Term Memory [83.06095498971682]
本稿ではまず,プロアクティブAIエージェントのストリーミングパラダイムとしてDD-MM-PAS(Demand Detection, Memory Modeling, Proactive Agent System)を提案する。
私たちはこのパラダイムをPaskでインスタンス化し、DDのためのストリーミングIntentFlowモデル、長期MMのためのハイブリッドメモリ(ワークスペース、ユーザ、グローバル)、PAS赤外線フレームワークを使っています。
また、LatentNeeds-Benchも紹介しています。これは、ユーザ合意のデータから構築され、何千回もの人間の編集によって洗練されています。
論文 参考訳(メタデータ) (2026-04-09T09:06:13Z) - AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents [49.63422082885992]
長軸対話エージェントのための適応型ユーザ中心メモリフレームワークであるAdaMemを提案する。
AdaMemは対話履歴をワーキング、エピソディック、ペルソナ、グラフメモリに整理する。
LoCoMo と PERSONAMEM ベンチマーク上での AdaMem の評価を行った。
論文 参考訳(メタデータ) (2026-03-17T13:22:54Z) - Memory for Autonomous LLM Agents:Mechanisms, Evaluation, and Emerging Frontiers [0.42061757959666934]
大きな言語モデル(LLM)エージェントは、単一のコンテキストウィンドウが小さすぎて何が起きているのかをキャプチャできないような環境で、ますます運用される。
メモリはステートレステキストジェネレータを真に適応的なエージェントに変える。
この調査は、メモリがどのように設計され、実装され、現代のLCMベースのエージェントで評価されるかという構造化された説明を提供する。
論文 参考訳(メタデータ) (2026-03-08T15:08:01Z) - Stateless Yet Not Forgetful: Implicit Memory as a Hidden Channel in LLMs [13.390425803544785]
暗黙の記憶を導入し、モデルが他の独立した相互作用をまたいで状態を運ぶ能力を導入します。
デモとして、時間爆弾と呼ばれる新しい時間的バックドアを紹介します。
我々は,隠蔽型エージェント間通信,ベンチマーク汚染,ターゲット操作,トレーニングデータ中毒など,暗黙記憶の幅広い意味を分析した。
論文 参考訳(メタデータ) (2026-02-09T12:01:32Z) - Explore with Long-term Memory: A Benchmark and Multimodal LLM-based Reinforcement Learning Framework for Embodied Exploration [52.35887679314727]
長期記憶身体探索は、エージェントの探索的認知と意思決定行動を統合することを目的としている。
エージェントのメモリリコールとプロアクティブな探索能力を高めるため,我々はMemoryExplorerを提案する。
論文 参考訳(メタデータ) (2026-01-11T16:23:22Z) - Memory Matters More: Event-Centric Memory as a Logic Map for Agent Searching and Reasoning [55.251697395358285]
大規模言語モデル(LLM)は、環境を推論し、計画し、相互作用するインテリジェントエージェントとして、ますます多くデプロイされている。
長期のシナリオに効果的にスケールするには、そのようなエージェントの重要な機能は、過去の経験を保持し、整理し、取り出すことができるメモリメカニズムである。
イベント理論にインスパイアされたイベント中心のメモリフレームワークであるCompassMemを提案する。
論文 参考訳(メタデータ) (2026-01-08T08:44:07Z) - Neuro-Inspired Fragmentation and Recall to Overcome Catastrophic
Forgetting in Curiosity [31.396929282048916]
深層強化学習法は様々なタスクにおいて顕著な性能を示すが,広い環境下での探索に苦戦している。
予測に基づく本質的な報酬は、エージェントがハードな探索タスクを解くのに役立つが、それらは破滅的な忘れに苦しむ可能性がある。
本研究では,人間と動物の学習方法に触発された新しい手法FARCuriosityを提案する。
論文 参考訳(メタデータ) (2023-10-26T16:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。