論文の概要: Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning
- arxiv url: http://arxiv.org/abs/2509.18083v1
- Date: Mon, 22 Sep 2025 17:56:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.554345
- Title: Reasoning Core: A Scalable RL Environment for LLM Symbolic Reasoning
- Title(参考訳): Reasoning Core: LLMシンボリック推論のためのスケーラブルなRL環境
- Authors: Valentin Lacombe, Valentin Quesnel, Damien Sileo,
- Abstract要約: Reasoning Coreは、Reinforcement Learning with Verifiable Rewards(RLVR)のための新しいスケーラブルな環境である。
Reasoning Coreは、PDDL計画、一階述語論理、文脈自由文法解析、因果推論、システム方程式解など、中核的な形式ドメイン間の問題を手続き的に生成する。
- 参考スコア(独自算出の注目度): 2.62112541805429
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Reasoning Core, a new scalable environment for Reinforcement Learning with Verifiable Rewards (RLVR), designed to advance foundational symbolic reasoning in Large Language Models (LLMs). Unlike existing benchmarks that focus on games or isolated puzzles, Reasoning Core procedurally generates problems across core formal domains, including PDDL planning, first-order logic, context-free grammar parsing, causal reasoning, and system equation solving. The environment is built on key design principles of high-generality problem distributions, verification via external tools, and continuous difficulty control, which together provide a virtually infinite supply of novel training instances. Initial zero-shot evaluations with frontier LLMs confirm the difficulty of Reasoning Core's tasks, positioning it as a promising resource to improve the reasoning capabilities of future models.
- Abstract(参考訳): 本稿では,LLVR(Reinforcement Learning with Verifiable Rewards)のための拡張性のある新しい環境であるReasoning Coreを紹介する。
ゲームや独立したパズルに焦点を当てた既存のベンチマークとは異なり、Reasoning Coreは、PDDL計画、一階述語論理、文脈自由文法解析、因果推論、システム方程式解決など、コア形式ドメインの問題を手続き的に生成する。
この環境は、高汎用性問題分散、外部ツールによる検証、継続的な困難制御といった重要な設計原則に基づいて構築され、新しいトレーニングインスタンスを事実上無限に供給する。
フロンティア LLM による初期のゼロショット評価は、コアのタスクの推論が困難であることを確認し、将来のモデルの推論能力を改善するための有望なリソースとして位置づけた。
関連論文リスト
- Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Large Language Models Meet Symbolic Provers for Logical Reasoning Evaluation [24.081573908824353]
一階述語論理(FOL)推論はインテリジェントシステムにおいて重要である。
既存のベンチマークは、広範囲の人間のアノテーションや手作りテンプレートに依存していることが多い。
本稿では,大言語モデルの生成強度を記号型プローサの厳密性と精度で相乗化するProverGenという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T15:31:54Z) - Instantiation-based Formalization of Logical Reasoning Tasks using Language Models and Logical Solvers [4.897782942277061]
本稿では,SSV(Semantic Self-Verification)を導入し,自然言語から解法の形式言語への推論問題を正確に定式化する手法を提案する。
SSVは一貫性に基づくアプローチを用いて、モデルによって生成され、解決者によって検証される具体的なインスタンス化を用いて、問題の強力な抽象的な形式化を生成する。
このような*ほぼ確実な推論*は、多くの場合、手動検証の必要性を減らすための新しいアプローチとして提案され、より信頼性が高く自律的なAI推論システムに近づきます。
論文 参考訳(メタデータ) (2025-01-28T14:04:49Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。