論文の概要: REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2505.24760v1
- Date: Fri, 30 May 2025 16:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.06547
- Title: REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards
- Title(参考訳): Reasonsing GYM:Reinforcement LearningのためのReasoning Environments for Verible Rewards
- Authors: Zafir Stojanovski, Oliver Stanley, Joe Sharratt, Richard Jones, Abdulhakeem Adefioye, Jean Kaddour, Andreas Köpf,
- Abstract要約: Reasoning Gym (RG) は強化学習のための推論環境のライブラリである。
代数、算術、計算、認識、幾何学、グラフ理論、論理学、各種ゲームを含む複数の領域にまたがる100以上のデータ生成器と検証器を提供する。
- 参考スコア(独自算出の注目度): 5.736904041123411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Reasoning Gym (RG), a library of reasoning environments for reinforcement learning with verifiable rewards. It provides over 100 data generators and verifiers spanning multiple domains including algebra, arithmetic, computation, cognition, geometry, graph theory, logic, and various common games. Its key innovation is the ability to generate virtually infinite training data with adjustable complexity, unlike most previous reasoning datasets, which are typically fixed. This procedural generation approach allows for continuous evaluation across varying difficulty levels. Our experimental results demonstrate the efficacy of RG in both evaluating and reinforcement learning of reasoning models.
- Abstract(参考訳): 本稿では,強化学習のための推論環境ライブラリReasoning Gym(RG)を紹介する。
代数、算術、計算、認識、幾何学、グラフ理論、論理学、および様々な共通ゲームを含む、複数の領域にまたがる100以上のデータジェネレータと検証器を提供する。
その重要な革新は、調整可能な複雑さを持つ事実上無限のトレーニングデータを生成する能力である。
この手続き生成アプローチは、様々な難易度にわたって連続的な評価を可能にする。
実験の結果,推論モデルの評価と強化学習におけるRGの有効性が示された。
関連論文リスト
- KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。
KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文 参考訳(メタデータ) (2025-05-20T16:06:32Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Adapting to Non-Stationary Environments: Multi-Armed Bandit Enhanced Retrieval-Augmented Generation on Knowledge Graphs [23.357843519762483]
近年の研究では、検索-拡張生成フレームワークと知識グラフを組み合わせることで、大規模言語モデルの推論能力を強力に向上することが示されている。
我々は多目的帯域拡張RAGフレームワークを導入し、多様な機能を持つ複数の検索手法をサポートする。
本手法は,定常環境下での最先端性能を達成しつつ,非定常環境でのベースライン手法を著しく向上させる。
論文 参考訳(メタデータ) (2024-12-10T15:56:03Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。
具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。
広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - PGX: A Multi-level GNN Explanation Framework Based on Separate Knowledge
Distillation Processes [0.2005299372367689]
本稿では,GNNがグラフデータにおける複数のコンポーネントのマルチモーダル学習プロセスであることを示す,多段階GNN説明フレームワークを提案する。
元の問題の複雑さは、階層構造として表される複数の部分部分に分解することで緩和される。
このフレームワークはユーザの好みに基づいて異なる結果を生成することができるため、パーソナライズされた説明も目的としている。
論文 参考訳(メタデータ) (2022-08-05T10:14:48Z) - Modularized Transfer Learning with Multiple Knowledge Graphs for
Zero-shot Commonsense Reasoning [22.443211209959497]
ゼロショットQAシステムは、コモンセンス知識グラフ(KG)をモデルトレーニングのための合成QAフォームサンプルに変換する。
本稿では,異なる種類のコモンセンスKGを考慮し,ゼロショット転送学習シナリオを複数ソース設定に拡張することを目的とする。
本稿では,知識集約のモジュラー版を開発することにより,異なる知識ソース間の干渉による知識の喪失を軽減することを提案する。
論文 参考訳(メタデータ) (2022-06-08T07:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。