論文の概要: MolMem: Memory-Augmented Agentic Reinforcement Learning for Sample-Efficient Molecular Optimization
- arxiv url: http://arxiv.org/abs/2604.12237v1
- Date: Tue, 14 Apr 2026 03:24:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.21621
- Title: MolMem: Memory-Augmented Agentic Reinforcement Learning for Sample-Efficient Molecular Optimization
- Title(参考訳): MolMem: 分子最適化のためのメモリ拡張型エージェント強化学習
- Authors: Ziqing Wang, Yibo Wen, Abhishek Pandy, Han Liu, Kaize Ding,
- Abstract要約: MolMemはデュアルメモリシステムを備えたマルチターンエージェント強化学習フレームワークである。
Static Exemplar Memoryを使用して、コールドスタートグラウンドのための関連する例を検索し、Evolving Skill Memoryを使用して、成功したトラジェクトリを再利用可能な戦略に蒸留する。
- 参考スコア(独自算出の注目度): 30.982324843158057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In drug discovery, molecular optimization aims to iteratively refine a lead compound to improve molecular properties while preserving structural similarity to the original molecule. However, each oracle evaluation is expensive, making sample efficiency a key challenge for existing methods under a limited oracle budget. Trial-and-error approaches require many oracle calls, while methods that leverage external knowledge tend to reuse familiar templates and struggle on challenging objectives. A key missing piece is long-term memory that can ground decisions and provide reusable insights for future optimizations. To address this, we present MolMem (\textbf{Mol}ecular optimization with \textbf{Mem}ory), a multi-turn agentic reinforcement learning (RL) framework with a dual-memory system. Specifically, MolMem uses Static Exemplar Memory to retrieve relevant exemplars for cold-start grounding, and Evolving Skill Memory to distill successful trajectories into reusable strategies. Built on this memory-augmented formulation, we train the policy with dense step-wise rewards, turning costly rollouts into long-term knowledge that improves future optimization. Extensive experiments show that MolMem achieves 90\% success on single-property tasks (1.5$\times$ over the best baseline) and 52\% on multi-property tasks using only 500 oracle calls. Our code is available at https://github.com/REAL-Lab-NU/MolMem.
- Abstract(参考訳): 薬物発見において、分子最適化は、元の分子と構造的類似性を保ちながら、分子特性を改善するために鉛化合物を反復的に精製することを目的としている。
しかし、各オラクル評価は高価であり、サンプル効率は限られたオラクル予算の下で既存の手法にとって重要な課題となる。
試行錯誤アプローチは、多くのオラクル呼び出しを必要とし、一方、外部知識を活用するメソッドは、慣れ親しんだテンプレートを再利用し、挑戦的な目標に挑戦する傾向がある。
重要な欠如点は長期記憶であり、決定を下し、将来の最適化のために再利用可能な洞察を提供することができる。
これを解決するために、デュアルメモリシステムを備えたマルチターンエージェント強化学習(RL)フレームワークであるMolMem(\textbf{Mol}ecular Optimization with \textbf{Mem}ory)を提案する。
具体的には、MolMemは静的なExemplar Memoryを使用して、コールドスタートグラウンドに関連のあるExemplarを検索し、Evolving Skill Memoryを使用して、成功したトラジェクトリを再利用可能な戦略に蒸留する。
このメモリ拡張された定式化に基づいて、我々は厳密なステップワイドの報酬でポリシーをトレーニングし、コストのかかるロールアウトを将来の最適化を改善する長期的な知識に変える。
大規模な実験によると、MolMemはシングルプロパティタスク(最良ベースラインで1.5$\times$)で90%、マルチプロパティタスクで52%成功している。
私たちのコードはhttps://github.com/REAL-Lab-NU/MolMem.comで利用可能です。
関連論文リスト
- MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning [78.46301394559903]
大きな言語モデル(LLM)は、長期化タスクにますます使われています。
現在の手法はコストと精度のトレードオフに直面している。
MemSifterは、メモリ検索プロセスを小さなプロキシモデルにオフロードする新しいフレームワークである。
論文 参考訳(メタデータ) (2026-03-03T02:57:38Z) - NextMem: Towards Latent Factual Memory for LLM-based Agents [58.35585202907478]
NextMemは、自動回帰型オートエンコーダを使用して、潜時メモリを効率的に構築する、潜時ファクトメモリフレームワークである。
大規模な実験は、NextMemが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-26T14:35:27Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.27233666920618]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。
それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。
我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文 参考訳(メタデータ) (2025-11-04T18:27:39Z) - Memp: Exploring Agent Procedural Memory [72.41472703974935]
LLM(Large Language Models)ベースのエージェントは様々なタスクをこなすが、静的パラメータで手動で設計または絡み合うような不安定なプロシージャメモリに悩まされる。
本稿では,過去のエージェントの軌跡をステップバイステップの細粒度と高レベルなスクリプトライクな抽象化の両方に蒸留するMempを提案する。
メモリレポジトリが洗練されるにつれて、エージェントは着実に高い成功率と類似タスクの効率を達成できることを示す。
論文 参考訳(メタデータ) (2025-08-08T16:20:56Z) - Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory [0.5584627289325719]
大規模言語モデル(LLM)は、文脈的に一貫性のある応答を生成する際、顕著な進歩を示した。
しかし、それらの固定されたコンテキストウィンドウは、長時間のマルチセッション対話に対する一貫性を維持するための根本的な課題を生じさせる。
私たちはMem0というスケーラブルなメモリ中心アーキテクチャを導入し、進行中の会話から健全な情報を動的に抽出し、統合し、取得することでこの問題に対処します。
論文 参考訳(メタデータ) (2025-04-28T01:46:35Z) - MEMO: Fine-grained Tensor Management For Ultra-long Context LLM Training [24.066283519769968]
大規模言語モデル(LLM)は、よりクリエイティブなアプリケーションを促進するために、拡張コンテキスト長を使用して訓練されている。
本稿では,メモリ管理を微粒化するための新しいフレームワークであるMEMOを提案する。
MeMOはMegatron-LMやDeepSpeedと比べて平均1.97倍と1.80倍のMFUを達成している。
論文 参考訳(メタデータ) (2024-07-16T18:59:49Z) - Augmented Memory: Capitalizing on Experience Replay to Accelerate De
Novo Molecular Design [0.0]
分子生成モデルは、最小限のオラクル評価の下で望ましい目的を満たすことを学ばなければならない。
本稿では,データ拡張と体験再生を組み合わせたAugmented Memoryという新しいアルゴリズムを提案する。
オラクルコールから得られたスコアを再利用してモデルを複数回更新できることを示す。
論文 参考訳(メタデータ) (2023-05-10T14:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。