論文の概要: What Training Data Teaches RL Memory Agents: An Empirical Study of Curriculum Effects in Memory-Augmented QA
- arxiv url: http://arxiv.org/abs/2605.23067v1
- Date: Thu, 21 May 2026 21:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.116861
- Title: What Training Data Teaches RL Memory Agents: An Empirical Study of Curriculum Effects in Memory-Augmented QA
- Title(参考訳): 学習データがRL記憶剤にどのような影響を及ぼすか:記憶増強QAにおけるカリキュラム効果の実証的研究
- Authors: Xinjie He, Zhiyuan Lin, Su Liu, Jialun Wu, Qiyang Xie, Weikai Zhou, Shuai Xiao,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、マルチセッション対話において、外部記憶バンクを推論するためにLLMエージェントを訓練するための実行可能なレシピとして登場した。
本稿では、アーキテクチャ、RLアルゴリズム、および全てのハイパーパラメータを固定し、3つの条件でトレーニングカリキュラムだけを変化させる制御された経験的研究について述べる。
2つのベンチマークと10の質問タイプにまたがって、カリキュラム構成はパフォーマンスの均一なスケーリングファクタではなく、特殊化の細かいレバーとして機能する。
- 参考スコア(独自算出の注目度): 6.180594609315985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has emerged as a viable recipe for training LLM agents to reason over external memory banks in multi-session dialogue. Existing work trains exclusively on a single benchmark, leaving open how the composition of training data shapes the skills a memory agent acquires. We present a controlled empirical study that holds architecture, RL algorithm, and all hyperparameters fixed and varies only the training curriculum across three conditions: in-domain (LoCoMo), mixed-benchmark (LoCoMo + LongMemEval), and out-of-domain (LongMemEval only). Across two benchmarks and ten question types, curriculum composition acts as a fine-grained lever on specialization rather than a uniform scaling factor on performance. The mixed curriculum yields the strongest overall F1 on both evaluation sets. Training on a narrow out-of-domain set transfers a targeted skill - temporal reasoning - despite weak aggregate performance. Per-type differences substantially exceed aggregate differences, indicating that single-number benchmark comparisons systematically underreport curriculum effects. We further report two practical lessons from adapting GRPO to a single-GPU regime: cross-benchmark mixing requires filtering format-specific noise from memory banks to preserve training signal, and binary exact-match reward produces no learning signal at the small group sizes (G = 4) required on one GPU, motivating continuous reward functions in this regime.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、マルチセッション対話において、外部記憶バンクを推論するためにLLMエージェントを訓練するための実行可能なレシピとして登場した。
既存のワークトレーナーは単一のベンチマークでのみトレーニングを行い、トレーニングデータの構成がメモリエージェントが取得したスキルをどのように形成するかをオープンにする。
アーキテクチャ、RLアルゴリズム、およびすべてのハイパーパラメータを固定し、トレーニングカリキュラムを3つの条件(LoCoMo)、混合ベンチマーク(LoCoMo + LongMemEval)、アウト・オブ・ドメイン(LongMemEval のみ)で変更する。
2つのベンチマークと10の質問タイプにまたがって、カリキュラム構成はパフォーマンスの均一なスケーリングファクタではなく、特殊化の細かいレバーとして機能する。
混合カリキュラムは、両方の評価セットで最強の総合F1を得る。
狭い領域外セットのトレーニングは、低い集約パフォーマンスにもかかわらず、ターゲットスキル(時間的推論)を転送する。
単数ベンチマークの比較は、カリキュラム効果を体系的に過小評価していることを示している。
クロスベンチマークミキシングは、トレーニング信号を保持するためにメモリバンクからフォーマット固有のノイズをフィルタリングすることを必要とし、バイナリの完全マッチ報酬は、1つのGPUで必要となる小さなグループサイズ(G = 4)で学習信号を生成せず、このシステムで連続的な報酬関数を動機付ける。
関連論文リスト
- Bagging-Based Model Merging for Robust General Text Embeddings [73.51674133699196]
汎用テキスト埋め込みモデルは、幅広いNLPおよび情報検索アプリケーションを支える。
本稿では,データスケジューリングとモデルマージという2つの観点から,テキスト埋め込みのためのマルチタスク学習の体系的研究を行う。
本稿では,Baging ベースの rObust mOdel Merging (BOOM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T15:45:08Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning [45.19254609437857]
オンライン強化学習(RL)は、複雑で安全クリティカルな領域で優れているが、サンプルの非効率性、トレーニング不安定性、限定的な解釈可能性に悩まされている。
データ属性は、モデルの振る舞いをトレーニングサンプルに遡る、原則化された方法を提供する。
本稿では、オンラインRLトレーニングのためのアルゴリズムである反復的影響ベースのフィルタリング(IIF)を提案し、ポリシー更新を洗練するための経験的フィルタリングを反復的に行う。
論文 参考訳(メタデータ) (2025-05-25T19:25:57Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - DACL-RAG: Data Augmentation Strategy with Curriculum Learning for Retrieval-Augmented Generation [54.26665681604041]
DACL-RAGは多段階データ拡張戦略と多段階学習パラダイムを組み合わせた多段階RAGトレーニングフレームワークである。
我々のフレームワークは、4つのオープンドメインQAデータセットで一貫した有効性を示し、複数の高度なメソッドに対して2%から4%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-15T16:53:04Z) - Memory-guided Network with Uncertainty-based Feature Augmentation for Few-shot Semantic Segmentation [12.653336728447654]
学習可能なメモリベクトルの集合からなるクラス共有メモリ(CSM)モジュールを提案する。
これらのメモリベクトルは、トレーニング中にベースクラスから要素オブジェクトパターンを学習し、トレーニングと推論の両方でクエリ機能を再エンコードする。
我々は、CSMとUFAを代表的FSS作品に統合し、広く使われているPASCAL-5$i$とCOCO-20$i$データセットの実験結果を得た。
論文 参考訳(メタデータ) (2024-06-01T19:53:25Z) - Benchmarking Hebbian learning rules for associative memory [0.0]
連想記憶は認知と計算の脳科学における重要な概念である。
ストレージ容量とプロトタイプ抽出に関する6つの異なる学習ルールをベンチマークする。
論文 参考訳(メタデータ) (2023-12-30T21:49:47Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。