論文の概要: RuleReasoner: Reinforced Rule-based Reasoning via Domain-aware Dynamic Sampling
- arxiv url: http://arxiv.org/abs/2506.08672v1
- Date: Tue, 10 Jun 2025 10:31:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.283654
- Title: RuleReasoner: Reinforced Rule-based Reasoning via Domain-aware Dynamic Sampling
- Title(参考訳): RuleReasoner: ドメイン認識動的サンプリングによる強化されたルールベースの推論
- Authors: Yang Liu, Jiaqi Li, Zilong Zheng,
- Abstract要約: ルールに基づく推論は、推論における根本的な問題の1つとして認識されている。
本稿ではルールベースの推論を行うシンプルな方法であるReinforced Rule-based Reasoning、すなわち RuleReasonerを紹介する。
具体的には、過去の報酬に基づいて異なるドメインのサンプリング重みを更新することで、Re RuleReasonerは各トレーニングバッチを再サンプリングする。
- 参考スコア(独自算出の注目度): 25.12721060984898
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Rule-based reasoning has been acknowledged as one of the fundamental problems in reasoning, while deviations in rule formats, types, and complexity in real-world applications pose severe challenges. Recent studies have shown that large reasoning models (LRMs) have remarkable reasoning capabilities, and their performance is substantially enhanced by reinforcement learning (RL). However, it remains an open question whether small reasoning models (SRMs) can learn rule-based reasoning effectively with robust generalization across diverse tasks and domains. To address this, we introduce Reinforced Rule-based Reasoning, a.k.a. RuleReasoner, a simple yet effective method to conduct rule-based reasoning via a wide collection of curated tasks and a novel domain-aware dynamic sampling approach. Specifically, RuleReasoner resamples each training batch by updating the sampling weights of different domains based on historical rewards. This facilitates domain augmentation and flexible online learning schedules for RL, obviating the need for pre-hoc human-engineered mix-training recipes used in existing methods. Empirical evaluations on in-distribution (ID) and out-of-distribution (OOD) benchmarks reveal that RuleReasoner outperforms frontier LRMs by a significant margin ($\Delta$4.1% average points on eight ID tasks and $\Delta$10.4% average points on three OOD tasks over OpenAI-o1). Notably, our approach also exhibits higher computational efficiency compared to prior dynamic sampling methods for RL.
- Abstract(参考訳): ルールベースの推論は推論における根本的な問題の1つとして認識されてきましたが、現実のアプリケーションにおけるルールフォーマット、型、複雑さの偏りは深刻な問題を引き起こします。
近年の研究では、大きな推論モデル(LRM)には顕著な推論能力があり、その性能は強化学習(RL)によって大幅に向上している。
しかし、スモール推論モデル(SRM)が多種多様なタスクや領域をまたいだ堅牢な一般化でルールベースの推論を効果的に学習できるかどうかには疑問が残る。
これを解決するために、Reinforced Rule-based Reasoning、すなわち RuleReasonerを導入します。
具体的には、過去の報酬に基づいて異なるドメインのサンプリング重みを更新することで、Re RuleReasonerは各トレーニングバッチを再サンプリングする。
これにより、RLのドメイン拡張とフレキシブルなオンライン学習スケジュールが容易になり、既存のメソッドで使用される人工学のミックストレーニングレシピの必要性が回避される。
In-distriion (ID) と Out-of-distriion (OOD) のベンチマークによる実証的な評価では、Re RuleReasoner はフロンティアの LRM をかなり上回っている( OpenAI-o1 上の OOD の 3 つのタスクでは Delta$4.1% 平均点と $\Delta$10.4% 平均点)。
また,本手法は,従来のRLの動的サンプリング手法と比較して高い計算効率を示す。
関連論文リスト
- Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization [86.32257216965229]
そこで本稿では,MLLMの自己改善を支援するオンライン強化学習フレームワークを提案する。
StepGRPOは、Step-wise Reasoning Accuracy Reward (StepRAR)とStep-wise Reasoning Validity Reward (StepRVR)の2つの新しいルールベースの推論報酬を導入した。
提案するStepGRPOでは,ステップバイステップ推論に優れた機能を持つMLLMのシリーズであるR1-VLを紹介する。
論文 参考訳(メタデータ) (2025-03-17T08:51:44Z) - ReARTeR: Retrieval-Augmented Reasoning with Trustworthy Process Rewarding [25.329712997545794]
ReARTeR(Retrieval-Augmented Reasoning)を提案する。
ReARTeRは、ポストトレーニングとテストタイムスケーリングを通じて、RAGシステムの推論能力を向上する。
マルチステップ推論ベンチマークの実験結果から,大幅な改善が示された。
論文 参考訳(メタデータ) (2025-01-14T05:56:26Z) - Multi-Label Contrastive Learning for Abstract Visual Reasoning [0.0]
Ravenのプログレッシブマトリクスを解く最先端のシステムは、大量のパターンベースのトレーニングとデータセットのバイアスを利用する。
人間は、解決すべきRPM(または一般的には視覚的推論タスク)の根底にあるルールや概念の識別に集中する。
本稿では,新しいトレーニングアルゴリズムに加えて,最先端性能に寄与する重要な要因であるRPMのスパースルール符号化方式を提案する。
論文 参考訳(メタデータ) (2020-12-03T14:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。