論文の概要: Freshness-Aware Prioritized Experience Replay for LLM/VLM Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.16918v1
- Date: Sat, 18 Apr 2026 08:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.236361
- Title: Freshness-Aware Prioritized Experience Replay for LLM/VLM Reinforcement Learning
- Title(参考訳): LLM/VLM強化学習のための鮮度を考慮した優先体験再生
- Authors: Weiyu Ma, Yongcheng Zeng, Yan Song, Xinyu Cui, Jian Zhao, Xuhui Liu, Mohamed Elhoseiny,
- Abstract要約: 強化学習(RL)は、学習後の大規模言語モデル(LLM)と視覚言語モデル(VLM)において驚くべき成功を収めた。
これらの方法は、単一の勾配更新後に収集された全ての軌道を破棄し、結果としてサンプル効率が低下する。
本稿では, PER に基づく優先度を乗算指数年齢減衰で増大させることにより, この優先度の安定化問題に対処する Freshness-Aware PER を提案する。
- 参考スコア(独自算出の注目度): 43.63475878891097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has achieved impressive success in post-training Large Language Models (LLMs) and Vision-Language Models (VLMs), with on-policy algorithms such as PPO, GRPO, and REINFORCE++ serving as the dominant paradigm. However, these methods discard all collected trajectories after a single gradient update, resulting in poor sample efficiency, particularly wasteful for agentic tasks where multi-turn environment interactions are expensive. While Experience Replay drives sample efficiency in classic RL by allowing agents to reuse past trajectories and prioritize informative ones, directly applying Prioritized Experience Replay (PER) to LLMs fails. The rapid policy evolution of billion-parameter models renders stored priorities stale, causing old high-priority trajectories to dominate sampling long after they have become uninformative. We propose Freshness-Aware PER, which addresses this priority staleness problem by augmenting any PER-based priority with a multiplicative exponential age decay grounded in effective sample size analysis. To the best of our knowledge, Freshness-Aware PER is the first work to successfully apply PER to LLM/VLM reinforcement learning. We evaluate on eight multi-step agentic, reasoning, and math competition tasks with 0.5B, 3B, and 7B models. Freshness-Aware PER significantly outperforms on-policy baselines, achieving +46% on NQ Search, +367% on Sokoban, and +133% on VLM FrozenLake, while standard PER without age decay consistently degrades performance. Our code is publicly available at https://github.com/Vision-CAIR/Freshness-Aware-PER.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)と視覚言語モデル(VLM)のポストトレーニングにおいて、PPO、GRPO、REINFORCE++といった政治アルゴリズムが支配的なパラダイムとなっている。
しかしながら、これらの手法は、単一の勾配更新後に収集された全ての軌道を破棄し、結果としてサンプル効率が低下し、特にマルチターン環境相互作用が高価であるエージェントタスクに無駄になる。
Experience Replayは従来のRLのサンプル効率を向上させる一方で、エージェントが過去のトラジェクトリを再利用し、インフォメーションを優先順位付けできるようにし、直接LLMに優先順位付けされたエクスペリエンス・リプレイ(PER)を適用することは失敗する。
数十億パラメータモデルの急速な政策進化は、保存された優先順位を安定させ、古い優先度の高い軌道が不定形化されてから長い間サンプリングを支配した。
本稿では,この優先度安定度問題に有効なサンプルサイズ解析を基礎とした乗算指数年齢減衰法を用いて,PERに基づく優先度を増大させることにより対処する Freshness-Aware PERを提案する。
我々の知る限り、Freshness-Aware PER は LLM/VLM 強化学習にPER をうまく応用する最初の試みである。
本研究では, 0.5B, 3B, 7Bモデルを用いたマルチステップエージェント, 推論, 数学の競争課題について検討した。
Freshness-Aware PERは、NQ Searchで+46%、Sokobanで+367%、VLM FrozenLakeで+133%、老朽化した標準PERは一貫してパフォーマンスを低下させる。
私たちのコードはhttps://github.com/Vision-CAIR/Freshness-Aware-PERで公開されています。
関連論文リスト
- Off-Policy Value-Based Reinforcement Learning for Large Language Models [25.962820072445222]
ReValはベルマン更新に基づく手法で、内部の一貫性を捉える段階的な信号と、結果検証から導出される軌道レベルの信号を組み合わせる。
DeepSeek-R1-Distill-1.5Bでは、ReValはトレーニング効率を改善し、AIME24の2.7%、GRPOのGPQAの4.5%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-24T15:55:02Z) - VLM-Guided Experience Replay [41.08659748023147]
本稿では、視覚言語モデル(VLM)を用いて、リプレイバッファにおける体験の優先順位付けを導くことを提案する。
私たちのキーとなるアイデアは、凍結した訓練済みのVLMを自動評価器として使用して、エージェントの経験から有望なサブトラジェクトリを特定し、優先順位付けすることです。
ゲームプレイやロボティクスを含む全シナリオにおいて,提案手法を用いて訓練したエージェントは,平均成功率11~52%,サンプル効率19~45%向上した。
論文 参考訳(メタデータ) (2026-02-02T10:19:59Z) - ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - MAC-PO: Multi-Agent Experience Replay via Collective Priority
Optimization [12.473095790918347]
マルチエージェント問題に対する最適優先体験再生を定式化する名前を提案する。
結果として生じた政策の後悔を最小限にすることで、現在の政策と明確な最適政策とのギャップを狭めることができる。
論文 参考訳(メタデータ) (2023-02-21T03:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。