論文の概要: Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error
- arxiv url: http://arxiv.org/abs/2510.26109v1
- Date: Thu, 30 Oct 2025 03:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.648599
- Title: Do Not Step Into the Same River Twice: Learning to Reason from Trial and Error
- Title(参考訳): 同じ川に足を踏み入れるな - 試行錯誤から推論を学ぶ
- Authors: Chenming Tang, Hsiu-Yuan Huang, Weijie Liu, Saiyong Yang, Yunfang Wu,
- Abstract要約: LTE (Learning to reason from Trial and Error) は、LLMが以前に生成した誤った回答と過剰な応答の問題を暗示するアプローチである。
Pass@1では6.38、Pass@kでは9.00、Qwen3-4B-Baseでは6つの数学ベンチマークで平均すると、通常のグループ相対ポリシー最適化(GRPO)よりも優れたLTEの有効性が検証された。
- 参考スコア(独自算出の注目度): 13.24687763539952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has significantly boosted the reasoning capability of large language models (LLMs) recently. However, existing RLVR approaches merely train LLMs based on their own generated responses and are constrained by the initial capability of LLMs, thus prone to exploration stagnation, in which LLMs fail to solve more training problems and cannot further learn from the training data. Some work tries to address this by leveraging off-policy solutions to training problems but requires external guidance from experts which suffers from limited availability. In this work, we propose LTE (Learning to reason from Trial and Error), an approach hinting LLMs with their previously self-generated incorrect answers and problem of overlong responses, which does not require any external expert guidance. Experiments validate the effectiveness of LTE, which outperforms the normal group relative policy optimization (GRPO) by 6.38 in Pass@1 and 9.00 in Pass@k on average across six mathematics benchmarks for Qwen3-4B-Base. Further analysis confirms that LTE successfully mitigates the problem of exploration stagnation and enhances both exploitation and exploration during training.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は,近年,大規模言語モデル(LLM)の推論能力を大幅に向上させた。
しかし、既存のRLVRアプローチは、単に自作の応答に基づいてLSMを訓練するだけであり、LSMの初期能力に制約されているため、LSMがより多くのトレーニング問題を解くことができず、トレーニングデータからさらに学べないような停滞を探索する傾向にある。
いくつかの研究は、政策外のソリューションをトレーニング問題に活用することでこの問題に対処しようとするが、可用性の制限に苦しむ専門家からの外部ガイダンスが必要である。
本研究では,従来の自己生成型不正確な回答と過剰な応答の問題を示唆するLTE(Trial and Errorから推論する学習法)を提案する。
Pass@1では6.38、Pass@kでは9.00、Qwen3-4B-Baseでは6つの数学ベンチマークで平均すると、通常のグループ相対ポリシー最適化(GRPO)よりも優れたLTEの有効性が検証された。
さらなる分析により、LTEは探索の停滞の問題を緩和し、訓練中のエクスプロイトと探索の両方を強化することが確認された。
関連論文リスト
- Guiding Exploration in Reinforcement Learning Through LLM-Augmented Observations [0.0]
大規模言語モデル(LLM)は、手続き的知識とテキスト事前学習による推論能力を持っている。
拡張観測空間を通してLLM生成アクションレコメンデーションを提供するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T19:54:31Z) - Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning [46.610146536866445]
大規模言語モデル(LLM)は、推論能力の出現を促進するために強化学習(RL)の可能性を強調している。
本稿では,一般的な推論のための探索ボトルネックを解消するために,Scaffolded Reinforcement Learning (RuscaRL)を提案する。
我々は、RuscaRLがQwen2.5-7B-InstructをHealthBench-500で23.6から50.3に大幅に向上し、GPT-4.1を上回っていることを示した。
論文 参考訳(メタデータ) (2025-08-23T08:47:31Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [111.1749164063616]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。