論文の概要: Poly-EPO: Training Exploratory Reasoning Models
- arxiv url: http://arxiv.org/abs/2604.17654v1
- Date: Sun, 19 Apr 2026 22:54:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.621599
- Title: Poly-EPO: Training Exploratory Reasoning Models
- Title(参考訳): Poly-EPO:探査推論モデルの訓練
- Authors: Ifdita Hasan Orney, Jubayer Ibn Hamid, Shreya S Ramanujam, Shirley Wu, Hengyuan Hu, Noah Goodman, Dorsa Sadigh, Chelsea Finn,
- Abstract要約: 本稿では,学習後言語モデル(LM)の枠組みについて,楽観的な探索を明示的に奨励し,探索と搾取の相乗効果を促進する。
本稿では,この枠組みを探索と利用を明確に相乗化するための目的として,ポリクロミック探索政策最適化(Poly-EPO)を提案する。
- 参考スコア(独自算出の注目度): 62.82992914206963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration is a cornerstone of learning from experience: it enables agents to find solutions to complex problems, generalize to novel ones, and scale performance with test-time compute. In this paper, we present a framework for post-training language models (LMs) that explicitly encourages optimistic exploration and promotes a synergy between exploration and exploitation. The central idea is to train the LM to generate sets of responses that are collectively accurate under the reward function and exploratory in their reasoning strategies. We first develop a general recipe for optimizing LMs with set reinforcement learning (set RL) under arbitrary objective functions, showing how standard RL algorithms can be adapted to this setting through a modification to the advantage computation. We then propose Polychromic Exploratory Policy Optimization (Poly-EPO), which instantiates this framework with an objective that explicitly synergizes exploration and exploitation. Across a range of reasoning benchmarks, we show that Poly-EPO improves generalization, as evidenced by higher pass@$k$ coverage, preserves greater diversity in model generations, and effectively scales with test-time compute.
- Abstract(参考訳): エージェントは複雑な問題に対する解決策を見つけ出し、新しい問題に一般化し、テスト時間計算でパフォーマンスをスケールすることができる。
本稿では,学習後言語モデル(LM)の枠組みについて,楽観的な探索を促進するとともに,探索と搾取の相乗効果を促進する。
中心となる考え方は、報酬関数の下で集合的に正確であり、彼らの推論戦略で探索的な応答を生成するためにLMを訓練することである。
まず、任意の目的関数下での強化学習(セットRL)でLMを最適化するための一般的なレシピを開発し、この設定に標準RLアルゴリズムがどのように適応できるかを示す。
次に、このフレームワークを探索と利用を明示的に相乗化するための目的として、ポリクロミック探索ポリシー最適化(Poly-EPO)を提案する。
様々な推論ベンチマークにおいて、Poly-EPOは、より高いパス@$k$カバレッジによって証明されるように、一般化を改善し、モデル生成の多様性を保ち、テスト時間計算で効果的にスケールすることを示す。
関連論文リスト
- The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Smart Exploration in Reinforcement Learning using Bounded Uncertainty Models [0.8602553195689513]
強化学習(Reinforcement Learning, RL)は、不確実な環境で意思決定を行うための強力なフレームワークである。
先行モデル知識を取り入れて探索をガイドし,学習プロセスを加速することで,この問題に対処する。
シミュレーション研究において,BUMEXと呼ばれる探索手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-04-08T12:33:38Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。