論文の概要: Aryabhata: An exam-focused language model for JEE Math
- arxiv url: http://arxiv.org/abs/2508.08665v1
- Date: Tue, 12 Aug 2025 06:20:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.321556
- Title: Aryabhata: An exam-focused language model for JEE Math
- Title(参考訳): Aryabhata: JEE Mathの試験中心言語モデル
- Authors: Ritvik Rastogi, Sachin Dharashivkar, Sandeep Varma,
- Abstract要約: インド学術試験(JEE)に最適化されたコンパクトな7Bパラメータ数学推論モデルを提案する。
Aryabhata 1.0は、強力なオープンウェイト推論モデルと、教師付き微調整(SFT)と、検証されたチェーンオブソートトレースのカリキュラムを融合して構築されている。
私たちはAryabhataを、試験中心のオープンソースの小言語モデルを前進させるための基礎モデルとしてリリースします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present $\textbf{Aryabhata 1.0}$, a compact 7B parameter math reasoning model optimized for the Indian academic exam, the Joint Entrance Examination (JEE). Despite rapid progress in large language models (LLMs), current models often remain unsuitable for educational use. Aryabhata 1.0 is built by merging strong open-weight reasoning models, followed by supervised fine-tuning (SFT) with curriculum learning on verified chain-of-thought (CoT) traces curated through best-of-$n$ rejection sampling. To further boost performance, we apply reinforcement learning with verifiable rewards (RLVR) using A2C objective with group-relative advantage estimation alongwith novel exploration strategies such as $\textit{Adaptive Group Resizing}$ and $\textit{Temperature Scaling}$. Evaluated on both in-distribution (JEE Main 2025) and out-of-distribution (MATH, GSM8K) benchmarks, Aryabhata outperforms existing models in accuracy and efficiency, while offering pedagogically useful step-by-step reasoning. We release Aryabhata as a foundation model to advance exam-centric, open-source small language models. This marks our first open release for community feedback ($\href{https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0}{Aryabhata\ 1.0\ on\ Hugging\ Face}$); PW is actively training future models to further improve learning outcomes for students.
- Abstract(参考訳): インドの学術試験であるJEE(Joint Entrance Examination)に最適化されたコンパクト 7B パラメータの算数推論モデルである $\textbf{Aryabhata 1.0}$ を提示する。
大規模言語モデル(LLM)の急速な進歩にもかかわらず、現在のモデルは教育用途には適さないことが多い。
Aryabhata 1.0は、強力なオープンウェイト推論モデルと、教師付き微調整(SFT)と、検証されたチェーン・オブ・ソート(CoT)トレースのカリキュラムを組み合わせて構築されている。
さらなる性能向上のために,A2C目標を用いた強化学習と,$\textit{Adaptive Group Resizing}$や$\textit{Temperature Scaling}$といった新しい探索戦略を併用して,グループ相対的優位性推定を施したRLVRを適用した。
JEE Main 2025) とout-of-distriion (MATH, GSM8K) のベンチマークで評価され、Aryabhata は既存のモデルを精度と効率で上回り、段階的に有用なステップバイステップ推論を提供する。
私たちはAryabhataを、試験中心のオープンソースの小言語モデルを前進させるための基礎モデルとしてリリースします。
これはコミュニティフィードバックのための最初のオープンリリースだ("\href{https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0}{Aryabhata\ 1.0\ on\ Hugging\ Face}$")。
関連論文リスト
- Adaptive Guidance Accelerates Reinforcement Learning of Reasoning Models [3.207886496235499]
検証可能な報酬(RLVR)に基づく強化学習で学習した推論モデルを用いて,新たな問題を解決する方法について検討する。
RLVRは、(1)pass@$k$をpass@1に圧縮し、(2)"capability gain"を介して、モデルが以前、$k$で解決できなかった新しい問題を解決することを学習する、という2つの主な方法でパフォーマンスを駆動する。
論文 参考訳(メタデータ) (2025-06-16T19:03:06Z) - Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。