論文の概要: MemBuilder: Reinforcing LLMs for Long-Term Memory Construction via Attributed Dense Rewards
- arxiv url: http://arxiv.org/abs/2601.05488v1
- Date: Fri, 09 Jan 2026 02:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.820416
- Title: MemBuilder: Reinforcing LLMs for Long-Term Memory Construction via Attributed Dense Rewards
- Title(参考訳): MemBuilder: 分散Dense Rewardsによる長期メモリ構築のためのLLMの強化
- Authors: Zhiyu Shen, Ziming Wu, Fuming Lai, Shaobing Lian, Yanghui Rao,
- Abstract要約: 我々は,多次元メモリ構築のオーケストレーションをモデルに委ねる強化学習フレームワークであるMemBuilderを紹介した。
MemBuilderは,(1)スパーストラジェクトリ・レベル・リワード,(2)多次元メモリ属性の2つの課題に対処する。
- 参考スコア(独自算出の注目度): 11.822943358442332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maintaining consistency in long-term dialogues remains a fundamental challenge for LLMs, as standard retrieval mechanisms often fail to capture the temporal evolution of historical states. While memory-augmented frameworks offer a structured alternative, current systems rely on static prompting of closed-source models or suffer from ineffective training paradigms with sparse rewards. We introduce MemBuilder, a reinforcement learning framework that trains models to orchestrate multi-dimensional memory construction with attributed dense rewards. MemBuilder addresses two key challenges: (1) Sparse Trajectory-Level Rewards: we employ synthetic session-level question generation to provide dense intermediate rewards across extended trajectories; and (2) Multi-Dimensional Memory Attribution: we introduce contribution-aware gradient weighting that scales policy updates based on each component's downstream impact. Experimental results show that MemBuilder enables a 4B-parameter model to outperform state-of-the-art closed-source baselines, exhibiting strong generalization across long-term dialogue benchmarks.
- Abstract(参考訳): 長期の対話における一貫性を維持することは、標準的な検索機構が歴史的状態の時間的進化を捉えるのに失敗するので、LLMにとって根本的な課題である。
メモリ拡張フレームワークは構造化された代替手段を提供するが、現在のシステムはクローズドソースモデルの静的なプロンプトに依存している。
我々は,多次元メモリ構築のオーケストレーションをモデルに委ねる強化学習フレームワークであるMemBuilderを紹介した。
MemBuilderは2つの主要な課題に対処する:(1)スパース・トラジェクトリ・レベル・リワード(Sparse Trajectory-Level Rewards): セッションレベルの質問生成(Synthetic session-level question generation)を用いて、拡張されたトラジェクトリの中間報酬を高密度に提供し、(2) 多次元メモリ属性: 各コンポーネントの下流への影響に基づいてポリシー更新をスケールするコントリビューション・アウェア・グラデーション・ウェイト(Contribution-aware gradient)を導入する。
実験結果から,MemBuilderは4Bパラメータモデルで最先端のクローズドソースベースラインを上回り,長期の対話ベンチマークで強力な一般化を実現していることがわかった。
関連論文リスト
- EvolMem: A Cognitive-Driven Benchmark for Multi-Session Dialogue Memory [63.84216832544323]
EvolMemは、大規模言語モデル(LLM)とエージェントシステムのマルチセッションメモリ機能を評価するための新しいベンチマークである。
このベンチマークを構築するために,話題から始まる生成と物語から着想を得た変換からなるハイブリッドデータ合成フレームワークを提案する。
広範囲な評価により、LLMが全てのメモリ次元で常に他よりも優れていることが分かる。
論文 参考訳(メタデータ) (2026-01-07T03:14:42Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。
現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。
ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文 参考訳(メタデータ) (2025-12-17T14:28:23Z) - TALM: Dynamic Tree-Structured Multi-Agent Framework with Long-Term Memory for Scalable Code Generation [0.0]
エージェントコード生成には、複雑なコンテキスト管理と多段階推論が可能な大きな言語モデルが必要である。
本稿では,構造化タスク分解,局所化再推論,長期記憶機構を統合した動的フレームワークTALMを提案する。
HumanEval、BigCodeBench、ClassEvalベンチマークの実験結果は、TALMが一貫して強力な推論性能と高いトークン効率を提供することを示している。
論文 参考訳(メタデータ) (2025-10-27T05:07:36Z) - CAM: A Constructivist View of Agentic Memory for LLM-Based Reading Comprehension [55.29309306566238]
現在のLarge Language Models (LLM) は、長文文書を解釈する際に圧倒的な情報量に直面している。
この課題は、バニラLSMを自律的な読み出しエージェントに高めることができる凝集性メモリモジュールの必須性を高める。
我々はジャン・ピアジェの構成主義理論(Constructivist Theory)からインスピレーションを得て、エージェントメモリの3つの特性(構造化スキーマ、フレキシブルな同化、動的調節)を表現した。
論文 参考訳(メタデータ) (2025-10-07T02:16:30Z) - Hierarchical Memory for High-Efficiency Long-Term Reasoning in LLM Agents [19.04968632268433]
大規模言語モデルエージェント(LLMエージェント)のための階層型メモリアーキテクチャを提案する。
各メモリベクトルは、次の層のセマンティック関連サブメモリを指し示す位置インデックスが埋め込まれている。
推論フェーズにおいて、インデックスベースのルーティング機構は、網羅的な類似性計算を行うことなく、効率的な層間検索を可能にする。
論文 参考訳(メタデータ) (2025-07-23T12:45:44Z) - PaceLLM: Brain-Inspired Large Language Models for Long-Context Understanding [20.849307413516183]
本研究では,(1)前頭前野(PFC)ニューロンの持続的発火を模倣する持続的活動(PA)機構を,活性化レベルメモリバンクを導入し,重要なFFN状態を動的に回収・再利用・更新し,文脈崩壊に対処し,(2)タスク適応型ニューラルスペシャライゼーションをエミュレートし,FFN重みをセマンティックモジュールに再編成し,相互依存を確立し,フラグメンテーションを緩和する,という2つの革新を特徴とするPaceLLMを提案する。
論文 参考訳(メタデータ) (2025-06-18T09:17:06Z) - StoryBench: A Dynamic Benchmark for Evaluating Long-Term Memory with Multi Turns [7.60350050736492]
長期記憶は、自律的な知性を達成するために、大規模言語モデルにとって不可欠である。
既存のベンチマークでは、知識保持と動的シーケンシャル推論を評価する上で、課題に直面している。
インタラクティブなフィクションゲームに基づく新しいベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-16T10:54:31Z) - In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents [70.12342024019044]
大規模言語モデル(LLM)は、オープンエンド対話において大きな進歩を遂げているが、関連する情報の保持と取得ができないため、その有効性は制限されている。
本稿では,長期対話エージェントのための新しいメカニズムであるリフレクティブメモリ管理(RMM)を提案する。
RMMは、LongMemEvalデータセットのメモリ管理なしでベースラインよりも10%以上精度が向上している。
論文 参考訳(メタデータ) (2025-03-11T04:15:52Z) - CAMELoT: Towards Large Language Models with Training-Free Consolidated
Associative Memory [38.429707659685974]
大規模言語モデル(LLM)は、メモリとランタイムのコストが高いため、長い入力シーケンスを扱うのに苦労する。
本稿では,事前学習した(凍結した)注意に基づくLCMに再学習せずに結合可能な連想記憶モジュールを提案する。
CAMELoTと呼ばれるこのアーキテクチャは、128トークンの小さなコンテキストウィンドウでも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-21T01:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。