論文の概要: OGER: A Robust Offline-Guided Exploration Reward for Hybrid Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.18530v1
- Date: Mon, 20 Apr 2026 17:26:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:53.016683
- Title: OGER: A Robust Offline-Guided Exploration Reward for Hybrid Reinforcement Learning
- Title(参考訳): OGER: ハイブリッド強化学習のためのロバストなオフラインガイド探索リワード
- Authors: Xinyu Ma, Mingzhou Xu, Xuebo Liu, Chang Jin, Qiang Wang, Derek F. Wong, Min Zhang,
- Abstract要約: OGERは、特別報酬モデリングレンズを通じてオフラインの教師指導とオンライン強化学習を統合するフレームワークである。
実験により、OGERは競争ベースラインを大幅に上回っていることが示された。
トレーニングダイナミクスの総合的な解析を行い、エントロピー認識報酬変調の有効性を検証するための詳細なアブレーション研究を行う。
- 参考スコア(独自算出の注目度): 45.212167434582334
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in Reinforcement Learning with Verifiable Rewards (RLVR) have significantly improved Large Language Model (LLM) reasoning, yet models often struggle to explore novel trajectories beyond their initial latent space. While offline teacher guidance and entropy-driven strategies have been proposed to address this, they often lack deep integration or are constrained by the model's inherent capacity. In this paper, we propose OGER, a novel framework that unifies offline teacher guidance and online reinforcement learning through a specialized reward modeling lens. OGER employs multi-teacher collaborative training and constructs an auxiliary exploration reward that leverages both offline trajectories and the model's own entropy to incentivize autonomous exploration. Extensive experiments across mathematical and general reasoning benchmarks demonstrate that OGER significantly outperforms competitive baselines, achieving substantial gains in mathematical reasoning while maintaining robust generalization to out-of-domain tasks. We provide a comprehensive analysis of training dynamics and conduct detailed ablation studies to validate the effectiveness of our entropy-aware reward modulation. Our code is available at https://github.com/ecoli-hit/OGER.git.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) の最近の進歩は、Large Language Model (LLM) 推論を大幅に改善している。
オフラインの教師指導とエントロピー駆動型戦略はこの問題に対処するために提案されているが、深い統合が欠如している場合や、モデル固有の能力に制約されている場合が多い。
本稿では,オフライン教師指導とオンライン強化学習を専門的な報酬モデリングレンズで統合する新しいフレームワークであるOGERを提案する。
OGERはマルチ教師の共同訓練を採用し、オフライン軌道とモデル自身のエントロピーの両方を活用して自律的な探索を促進する補助的な探索報酬を構築している。
数学的および一般推論のベンチマークによる広範な実験により、OGERは競争ベースラインを著しく上回り、領域外タスクへの堅牢な一般化を維持しながら、数学的推論においてかなりの利益を得ることを示した。
トレーニングダイナミクスの総合的な解析を行い、エントロピー認識報酬変調の有効性を検証するための詳細なアブレーション研究を行う。
私たちのコードはhttps://github.com/ecoli-hit/OGER.git.comで公開されています。
関連論文リスト
- Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models [71.9060068259379]
汎用推論モデルを構築するために,ケースド・ドメインワイド強化学習を提案する。
私たちの14Bモデルは、RLの後、LiveCodeBench v5/v6 ProでSFTの教師であるDeepSeek-R1-0528を上回り、インフォマティクスにおける2025 International Olympiad in Informatics (IOI)における銀の医療性能を上回りました。
論文 参考訳(メタデータ) (2025-12-15T18:02:35Z) - WebSeer: Training Deeper Search Agents through Reinforcement Learning with Self-Reflection [51.10348385624784]
本稿では,自己回帰機構によって強化された強化学習によって訓練された,よりインテリジェントな検索エージェントであるWebSeerを紹介する。
提案手法はツール使用チェーンを大幅に拡張し,回答精度を向上する。
論文 参考訳(メタデータ) (2025-10-21T16:52:00Z) - A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models [103.88578274567784]
MeRF(Motivation-enhanced Reinforcement Finetuning)は、大規模共振モデルの強化微調整を強化する直感的かつ効果的な方法である。
MeRFは報酬仕様を直接プロンプトに注入し、最適化目標を認識するためのコンテキスト内モチベーションとして機能する。
MeRFはRLVRベースラインよりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2025-06-23T10:37:57Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - SuperRL: Reinforcement Learning with Supervision to Boost Language Model Reasoning [42.54530036364341]
まばらな報酬のある環境では、強化学習は軌道のサンプリングに苦労する。
我々は、RLとSFTを代替する統合トレーニングフレームワークであるSuperRLを紹介する。
実験により、スーパーRLは、サンプル効率の向上、一般化の強化、スパース報酬下での堅牢性の向上により、バニラRLを超えることが示された。
論文 参考訳(メタデータ) (2025-06-01T17:43:54Z) - Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。
チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。
埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文 参考訳(メタデータ) (2025-02-04T19:37:35Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。
既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。
エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-14T04:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。