論文の概要: Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning
- arxiv url: http://arxiv.org/abs/2605.28829v2
- Date: Wed, 03 Jun 2026 07:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.542321
- Title: Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning
- Title(参考訳): Aryabhata 2: 高度なSTEM推論のための拡張学習
- Authors: Ritvik Rastogi, Vishal Singh, Tejas Chaudhari, Sandeep Varma,
- Abstract要約: Aryabhata 2は、競争力のあるSTEM試験のための推論に焦点を当てた言語モデルである。
物理ワラーの内部質問銀行を用いて、強化学習後トレーニングを通じて訓練される。
競争力のあるSTEM推論ではGPT-OSS-20Bよりも優れており、出力トークンは大幅に少ない。
- 参考スコア(独自算出の注目度): 1.631115063641726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Competitive STEM examinations such as JEE and NEET require multi-step symbolic reasoning, precise numerical computation, and deep conceptual understanding across physics, chemistry, and mathematics. Recent large language models perform strongly on common reasoning benchmarks, yet they remain difficult to deploy at scale, where millions of student doubts demand domain-specific, consistently structured problem solving. We introduce Aryabhata 2, a reasoning-focused language model for competitive STEM examinations, trained via reinforcement-learning post-training. Using PhysicsWallah's internal question banks, we construct a high-quality training curriculum and post-train GPT-OSS-20B through reinforcement learning with verifiable rewards. Training combines prolonged reinforcement learning with broadened exploration via progressively larger rollout group sizes. We evaluate Aryabhata 2 on competitive examination benchmarks, including JEE Main, JEE Advanced, and NEET, as well as out-of-distribution reasoning datasets such as AIME, HMMT, MMLU-Pro, MMLU-Redux 2.0, and GPQA. Results show that Aryabhata 2 outperforms its base model GPT-OSS-20B on competitive STEM reasoning while requiring substantially fewer output tokens (up to 64\% fewer).
- Abstract(参考訳): JEEやNEETのような競合STEM試験では、多段階の記号的推論、正確な数値計算、物理学、化学、数学の深い概念的理解が必要である。
最近の大規模言語モデルは、共通の推論ベンチマークで強く機能するが、大規模に展開することは困難であり、何百万人もの学生がドメイン固有の、一貫して構造化された問題解決を要求する。
Aryabhata 2は、学習後の強化学習を通して訓練された、競争力のあるSTEM試験のための推論型言語モデルである。
物理ワラーの内部質問銀行を用いて, 検証可能な報酬付き強化学習を通じて, 高品質な訓練カリキュラムと訓練後GPT-OSS-20Bを構築した。
訓練は、長期の強化学習と、徐々に大きなロールアウトグループサイズによる探索を組み合わせている。
JEE Main, JEE Advanced, NEET, AIME, HMMT, MMLU-Pro, MMLU-Redux 2.0, GPQAなどのアウト・オブ・ディストリビューション推論データセットなどの競合試験ベンチマークでAryabhata 2を評価する。
その結果、Aryabhata 2は、競合STEM推論において、GPT-OSS-20Bのベースモデルよりもはるかに少ない出力トークン(最大64\%)で性能が向上していることがわかった。
関連論文リスト
- Curiosity Over Hype: Modeling Motivation Language to Understand Early Outcomes in a Selective Quantum Track [0.0]
我々は,QuantumHub Peru が実行した初期の量子コンピューティング経路において,スペイン語の短い受入応答における潜在モチベーション信号がエンゲージメントと性能を予測できるかどうかを検討した。
我々は、応募者のオープン応答を分析し、2つの選択モジュールの結果とリンクする。
論文 参考訳(メタデータ) (2026-02-23T10:09:05Z) - Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving [65.02106674311908]
本稿では,マルチラウンド階層的推論を行う長期水平数学エージェントであるIntern-S1-MOを紹介する。
コンパクトメモリをレムマの形で維持することにより、Intern-S1-MOはレムマリッチ推論空間をより自由に探索することができる。
実験の結果、インターンS1-MOはIMO2025の非幾何学的問題で35点中26点を得ることができ、銀メダリストのパフォーマンスに匹敵することがわかった。
論文 参考訳(メタデータ) (2025-12-11T15:26:28Z) - Aryabhata: An exam-focused language model for JEE Math [0.0]
インド学術試験(JEE)に最適化されたコンパクト 7B パラメータ数学推論モデルである Aryabhata 1.0 について紹介する。
Aryabhata 1.0は、強力なオープンウェイト推論モデルと、教師付き微調整(SFT)と、検証されたチェーンオブソートトレースのカリキュラムを融合して構築されている。
私たちはAryabhataを、試験中心のオープンソースの小言語モデルを前進させるための基礎モデルとしてリリースします。
論文 参考訳(メタデータ) (2025-08-12T06:20:07Z) - R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation [75.33671166231096]
我々は、Reasoning Bench(R-Bench)と呼ばれる、大学院レベルの多学派、英語の中国語ベンチマークを導入する。
RBenchは108の被験者に1,094の質問を、83の被験者に665の質問を、マルチモーダルなモデルテストに当てはめている。
我々は,OpenAI o1,GPT-4o,DeepSeek-R1など,広く使用されているモデルを評価した。
論文 参考訳(メタデータ) (2025-05-04T07:48:36Z) - Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models [86.45058529521258]
OlymMATHは、LLMの複雑な推論能力を厳格にテストするために設計された、Olympiadレベルの新しい数学ベンチマークである。
OlymMATHは200の厳密にキュレートされた問題があり、それぞれが手動で検証され、英語と中国語の並行バージョンで利用可能である。
論文 参考訳(メタデータ) (2025-03-27T11:20:17Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - FiTs: Fine-grained Two-stage Training for Knowledge-aware Question
Answering [47.495991137191425]
本稿では, KAQAシステム性能を向上させるための微細な2段階トレーニングフレームワーク (FiT) を提案する。
第1段階は、PLMとKGからの表現の整列を目標とし、それらの間のモダリティギャップを埋めることである。
第2段階はナレッジ・アウェア・ファインチューニングと呼ばれ、モデルの共同推論能力の向上を目的としている。
論文 参考訳(メタデータ) (2023-02-23T06:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。