論文の概要: The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping
- arxiv url: http://arxiv.org/abs/2604.11297v1
- Date: Mon, 13 Apr 2026 10:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.484845
- Title: The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping
- Title(参考訳): 過去は過去のもの:メモリ強化された動的リワードシェーピング
- Authors: Yang Liu, Enxi Wang, Yufei Gao, Weixin Zhang, Bo Wang, Zhiyuan Zeng, Yikai Zhang, Yining Zheng, Xipeng Qiu,
- Abstract要約: 共通の障害モードはサンプリングの多様性を減らし、ポリシーは同様の誤った振る舞いを繰り返し生成する。
本稿では,過去の行動信号を報酬設計に組み込んだメモリ強化型動的報酬生成フレームワークMEDSを提案する。
5つのデータセットと3つのベースモデルにまたがって、MEDSは既存のベースラインよりも平均的なパフォーマンスを一貫して改善する。
- 参考スコア(独自算出の注目度): 43.18664989273585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success of reinforcement learning for large language models, a common failure mode is reduced sampling diversity, where the policy repeatedly generates similar erroneous behaviors. Classical entropy regularization encourages randomness under the current policy, but does not explicitly discourage recurrent failure patterns across rollouts. We propose MEDS, a Memory-Enhanced Dynamic reward Shaping framework that incorporates historical behavioral signals into reward design. By storing and leveraging intermediate model representations, we capture features of past rollouts and use density-based clustering to identify frequently recurring error patterns. Rollouts assigned to more prevalent error clusters are penalized more heavily, encouraging broader exploration while reducing repeated mistakes. Across five datasets and three base models, MEDS consistently improves average performance over existing baselines, achieving gains of up to 4.13 pass@1 points and 4.37 pass@128 points. Additional analyses using both LLM-based annotations and quantitative diversity metrics show that MEDS increases behavioral diversity during sampling.
- Abstract(参考訳): 大規模言語モデルの強化学習の成功にもかかわらず、共通の失敗モードはサンプリングの多様性を減らし、同様の誤った行動を繰り返し生成する。
古典的エントロピー正規化は、現在のポリシーの下でランダム性を促進するが、ロールアウト全体で繰り返し発生する障害パターンを明示的に回避しない。
本稿では,過去の行動信号を報酬設計に組み込んだメモリ強化型動的報酬生成フレームワークMEDSを提案する。
中間モデル表現の保存と活用により、過去のロールアウトの特徴を捉え、密度ベースのクラスタリングを用いて頻繁なエラーパターンを識別する。
より一般的なエラークラスタに割り当てられたロールアウトは、より厳格に罰せられ、繰り返しのミスを減らしながら広範な探索を奨励する。
5つのデータセットと3つのベースモデルで、MEDSは既存のベースラインよりも平均パフォーマンスを継続的に改善し、最大4.13pass@1ポイントと4.37pass@128ポイントのゲインを達成している。
LLMアノテーションと量的多様性指標の両方を用いた追加分析により、MEDSはサンプリング中の行動多様性を増大させることが示された。
関連論文リスト
- Continuum Dropout for Neural Differential Equations [13.964482869838639]
ニューラル微分方程式(NDE)の普遍的正則化手法である連続解法(Continuum Dropout)を導入する。
連続的なドロップアウト(Continuum Dropout)は、連続的にアクティブ(進化)状態と非アクティブ(停止)状態とを交互に交換するプロセスとしてドロップアウトのオンオフ機構を定式化する。
連続的なドロップアウトは,NDEの既存の正規化手法よりも優れており,様々な時系列や画像分類タスクにおいて優れた性能を発揮することを実証する。
論文 参考訳(メタデータ) (2025-11-13T16:10:45Z) - HAMMER: Hamiltonian Curiosity Augmented Large Language Model Reinforcement [20.177486231324533]
ハミルトンの好奇心強化大言語モデル強化(HAMMER)を提案する。
HAMMERは、データセット評価で一般的に使用される多様性メトリクスを動的強化学習手順に転送する。
実験的な評価は、HAMMERがモデル「好奇心」を刺激し、平均精度の3%から4%を一貫して達成していることを示している。
論文 参考訳(メタデータ) (2025-09-25T11:38:16Z) - Temporal-Difference Variational Continual Learning [77.92320830700797]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Continual Offline Reinforcement Learning via Diffusion-based Dual Generative Replay [16.269591842495892]
本研究では, 逐次的オフラインタスクに取り組むために, 前方転送を容易にし, 破滅的な忘れを緩和する実践的パラダイムについて検討する。
本稿では,生成した擬似データの同時再生により,過去の知識を保持できる2つの生成再生フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-16T15:39:11Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [104.60508550106618]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Overcoming Mode Collapse with Adaptive Multi Adversarial Training [5.09817514580101]
GAN(Generative Adversarial Networks)は、様々なアプリケーションで使用される生成モデルのクラスである。
GANは、ターゲット分布のいくつかのモードがジェネレータによって無視されるモード崩壊問題に悩まされていることが知られている。
本稿では,従来の世代形態を記憶するために,新たな差別者を適応的に生成する新たな訓練手法を提案する。
論文 参考訳(メタデータ) (2021-12-29T05:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。