論文の概要: Erase to Improve: Erasable Reinforcement Learning for Search-Augmented LLMs
- arxiv url: http://arxiv.org/abs/2510.00861v1
- Date: Wed, 01 Oct 2025 13:10:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.572247
- Title: Erase to Improve: Erasable Reinforcement Learning for Search-Augmented LLMs
- Title(参考訳): 改良のための効用:検索強化LLMのための消去可能な強化学習
- Authors: Ziliang Wang, Kang An, Xuhui Zheng, Faqiang Qian, Weikun Zhang, Cijun Ouyang, Jialu Cai, Yuhang Wang, Yichao Wu,
- Abstract要約: 脆弱な推論を堅牢なプロセスに変換する新しいフレームワークであるERLを提案する。
ERLは、障害ステップを明確に識別し、それらを消去し、推論をその場で再生し、欠陥論理が推論チェーンを通過するのを防ぐ。
ESearchと呼ばれるERLでトレーニングされたモデルは、HotpotQA、MuSiQue、2Wiki、Bamboogleで大幅に改善されている。
- 参考スコア(独自算出の注目度): 18.37387666170851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While search-augmented large language models (LLMs) exhibit impressive capabilities, their reliability in complex multi-hop reasoning remains limited. This limitation arises from three fundamental challenges: decomposition errors, where tasks are incorrectly broken down; retrieval missing, where key evidence fails to be retrieved; and reasoning errors, where flawed logic propagates through the reasoning chain. A single failure in any of these stages can derail the final answer. We propose Erasable Reinforcement Learning (ERL), a novel framework that transforms fragile reasoning into a robust process. ERL explicitly identifies faulty steps, erases them, and regenerates reasoning in place, preventing defective logic from propagating through the reasoning chain. This targeted correction mechanism turns brittle reasoning into a more resilient process. Models trained with ERL, termed ESearch, achieve substantial improvements on HotpotQA, MuSiQue, 2Wiki, and Bamboogle, with the 3B model achieving +8.48% EM and +11.56% F1, and the 7B model achieving +5.38% EM and +7.22% F1 over previous state-of-the-art(SOTA) results. These findings suggest that erasable reinforcement learning provides a powerful paradigm shift for robust multi-step reasoning in LLMs.
- Abstract(参考訳): 検索強化された大規模言語モデル(LLM)は印象的な能力を示すが、複雑なマルチホップ推論における信頼性は依然として限られている。
この制限は3つの基本的な課題から生じている: 分解エラー、タスクが誤って分解される部分、欠落した部分、重要な証拠が回収できない部分、そして論理の欠陥が推論連鎖を通じて伝播する部分である。
いずれの段階でもひとつの失敗は最終的な答えを損なう可能性がある。
脆弱な推論を堅牢なプロセスに変換する新しいフレームワークであるERLを提案する。
ERLは、障害ステップを明確に識別し、それらを消去し、推論をその場で再生し、欠陥論理が推論チェーンを通過するのを防ぐ。
この目標の補正機構は脆い推論をより弾力性のあるプロセスに変える。
ESearchと呼ばれるERLで訓練されたモデルは、HotpotQA、MuSiQue、2Wiki、Bamboogleで大幅に改善され、3Bモデルは+8.48% EMと+11.56% F1、そして7Bモデルは+5.38% EMと+7.22% F1を達成した。
これらの結果は,LLMにおける多段階の堅牢な推論において,消去可能な強化学習が強力なパラダイムシフトをもたらすことを示唆している。
関連論文リスト
- Lost at the Beginning of Reasoning [82.18834329384514]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
モデル自己補正能力を体系的に評価するために、意図的に欠陥のある第1の推論ステップで構築された新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z) - Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models? [14.29992535286614]
心の理論 (Theory of Mind, ToM) とは、心の状態を他人に説明できる能力である。
大規模言語モデルの最近の進歩は、ToMベンチマークで有望なパフォーマンスを示している。
これらのベンチマークは、明示的なヒューマンライクな推論プロセスを必要とするのか、それとも、代替戦略によってモデルが成功するのか?
論文 参考訳(メタデータ) (2025-04-02T12:58:42Z) - Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning [23.99454995087634]
大規模推論モデルにおけるルールベース強化学習の可能性について検討する。
合成論理パズルは, 制御可能な複雑性と簡単な解答検証により, 学習データとして用いられる。
我々の7Bモデルは、論理コーパスにはない、リフレクション、検証、要約のような高度な推論スキルを発達させる。
論文 参考訳(メタデータ) (2025-02-20T17:49:26Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。