論文の概要: ParamMem: Augmenting Language Agents with Parametric Reflective Memory
- arxiv url: http://arxiv.org/abs/2602.23320v1
- Date: Thu, 26 Feb 2026 18:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.846116
- Title: ParamMem: Augmenting Language Agents with Parametric Reflective Memory
- Title(参考訳): ParamMem: パラメトリックリフレクティブメモリによる言語エージェントの拡張
- Authors: Tianjun Yao, Yongqiang Chen, Yujia Zheng, Pan Li, Zhiqiang Shen, Kun Zhang,
- Abstract要約: 自己回帰により、言語エージェントは反復的に解を洗練できるが、しばしば推論性能を制限する反復的な出力を生成する。
モデルパラメータにクロスサンプル反射パターンをエンコードするパラメトリックメモリモジュールであるParamMemを紹介する。
本稿では,パラメトリックメモリとエピソードメモリとクロスサンプルメモリを統合したリフレクションベースのエージェントフレームワークであるParamAgentを提案する。
- 参考スコア(独自算出の注目度): 50.28529749962535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-reflection enables language agents to iteratively refine solutions, yet often produces repetitive outputs that limit reasoning performance. Recent studies have attempted to address this limitation through various approaches, among which increasing reflective diversity has shown promise. Our empirical analysis reveals a strong positive correlation between reflective diversity and task success, further motivating the need for diverse reflection signals. We introduce ParamMem, a parametric memory module that encodes cross-sample reflection patterns into model parameters, enabling diverse reflection generation through temperature-controlled sampling. Building on this module, we propose ParamAgent, a reflection-based agent framework that integrates parametric memory with episodic and cross-sample memory. Extensive experiments on code generation, mathematical reasoning, and multi-hop question answering demonstrate consistent improvements over state-of-the-art baselines. Further analysis reveals that ParamMem is sample-efficient, enables weak-to-strong transfer across model scales, and supports self-improvement without reliance on stronger external model, highlighting the potential of ParamMem as an effective component for enhancing language agents.
- Abstract(参考訳): 自己回帰は、言語エージェントが反復的に解を洗練できるが、しばしば推論性能を制限する反復的な出力を生成する。
近年の研究では、様々なアプローチを通じてこの制限に対処しようと試みており、その中でも反射多様性の増大は有望であることが示されている。
我々の経験的分析は、反射多様性とタスク成功の間に強い正の相関関係を示し、さらに多様な反射信号の必要性を動機付けている。
パラメトリックメモリモジュールであるParamMemを導入し、クロスサンプル反射パターンをモデルパラメータに符号化し、温度制御サンプリングによる多様な反射生成を可能にする。
このモジュール上に構築されたParamAgentは、パラメトリックメモリとエピソードメモリとクロスサンプルメモリを統合したリフレクションベースのエージェントフレームワークである。
コード生成、数学的推論、マルチホップ質問応答に関する大規模な実験は、最先端のベースラインよりも一貫した改善を示している。
さらに分析したところ、ParamMemはサンプル効率が高く、モデルスケール間の弱い移動を可能にし、強力な外部モデルに依存しない自己改善をサポートし、言語エージェントの強化に有効なコンポーネントとしてParamMemの可能性を強調している。
関連論文リスト
- Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - SAMULE: Self-Learning Agents Enhanced by Multi-level Reflection [14.40651157974557]
SAMULEは、多層反射合成に基づいて訓練された振り返り言語モデルを活用した、自己学習エージェントのための新しいフレームワークである。
まず、細かなエラー訂正のための単一軌道学習(マイクロレベル)、同じタスクの複数の試行でエラーを発生させるタスク内学習(メソレベル)、さまざまなタスク障害から同一の型付きエラーに基づいて伝達可能な洞察を抽出するタスク間学習(マクロレベル)の3段階にわたる高品質なリフレクションを合成する。
論文 参考訳(メタデータ) (2025-09-24T21:02:15Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Instruct-of-Reflection: Enhancing Large Language Models Iterative Reflection Capabilities via Dynamic-Meta Instruction [11.838351314880736]
インストラクション・オブ・リフレクション(英: Instruct-of-Reflection、IoRT)は、大規模言語モデル(LLM)の反復的リフレクション能力を高めるために動的メタ命令を活用する、新しく一般的なリフレクションフレームワークである。
実験の結果、IoRTは数学的および常識的推論タスクにおいて、確立されたベースラインよりも平均10.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-03-02T14:02:03Z) - Meta-Reflection: A Feedback-Free Reflection Learning Framework [57.14485943991588]
外部からのフィードバックを伴わずに単一の推論パスのみを必要とするフィードバックフリーリフレクション機構であるメタリフレクションを提案する。
過去のリフレクションを記憶し、取り出す人間の能力によって、メタリフレクションはコードブックに反射的な洞察を統合する。
実世界のシナリオにおけるメタリフレクションの実践性を徹底的に検討し,評価するために,E-Commerce Customer Intent Detectionという産業eコマースベンチマークを導入する。
論文 参考訳(メタデータ) (2024-12-18T12:20:04Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - Reflexion: Language Agents with Verbal Reinforcement Learning [44.85337947858337]
リフレクション(Reflexion)は、ウェイトを更新するのではなく、言語フィードバックによって言語エージェントを強化する新しいフレームワークである。
様々なタイプ(スカラー値または自由形式言語)とフィードバック信号のソース(外部または内部シミュレート)を組み込むのに十分な柔軟性がある。
例えば、ReflexionはHumanEvalのコーディングベンチマークで91%のパス@1精度を達成した。
論文 参考訳(メタデータ) (2023-03-20T18:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。