論文の概要: Accelerating Training Speed of Tiny Recursive Models via Curriculum Guided Adaptive Recursion
- arxiv url: http://arxiv.org/abs/2511.08653v1
- Date: Thu, 13 Nov 2025 01:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.1769
- Title: Accelerating Training Speed of Tiny Recursive Models via Curriculum Guided Adaptive Recursion
- Title(参考訳): カリキュラム誘導適応再帰によるTiny Recursive Modelの学習速度の高速化
- Authors: Kaleem Ullah Qasim, Jiashu Zhang,
- Abstract要約: CGARは、カリキュラム学習を従来のデータ順序よりもアーキテクチャの奥行きに応用する新しいトレーニング手法である。
423,168個のテストパズルを持つSudooku-Extremeでは、CGARは0.63%の精度で1.71倍のトレーニングスピードアップを達成した。
CGARで訓練されたモデルは、100%停止精度と11%の推論ステップで優れた推論効率を示す。
- 参考スコア(独自算出の注目度): 3.806023028063132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recursive reasoning models achieve remarkable performance on complex reasoning tasks through iterative refinement, enabling tiny networks to match large language models thousands of times their size. However, training remains computationally expensive, prior work reporting approximately 36 GPU-hours per dataset, limiting broader adoption and research. We propose CGAR, a novel training methodology that applies curriculum learning to architectural depth rather than traditional data ordering. CGAR introduces two synergistic components: Progressive Depth Curriculum dynamically adjusts recursion depth from shallow to deep configurations during training, preventing early overfitting while reducing computational cost, and Hierarchical Supervision Weighting applies exponentially decaying importance to supervision steps, aligning loss weighting with observed gradient magnitude decay. On Sudoku-Extreme with 423,168 test puzzles, CGAR achieves 1.71x training speedup (10.93 to 6.38 hours, 42% cost reduction) with only 0.63% accuracy drop (86.65% to 86.02%). Systematic ablations reveal Progressive Depth Curriculum alone achieves 2.26x speedup with 85.47% accuracy, demonstrating a rare Pareto improvement where architectural curriculum simultaneously enhances training efficiency and solution quality. CGAR-trained models exhibit superior inference efficiency with 100% halting accuracy and 11% fewer reasoning steps. Our work demonstrates that principled curriculum on architectural depth enables efficient training of recursive reasoning models on modest hardware. Code and models: https://github.com/Kaleemullahqasim/CGAR and https://huggingface.co/Kaleemullah/trm-cgar-sudoku
- Abstract(参考訳): 再帰的推論モデルは、反復的改良によって複雑な推論タスクにおいて顕著な性能を達成し、小さなネットワークが大きな言語モデルに数千倍のサイズで一致するようにする。
しかし、トレーニングは計算に費用がかかるままで、前回の作業ではデータセットあたり約36GPU時間が報告され、より広範な採用と研究が制限される。
CGARは,カリキュラム学習を従来のデータ順序よりもアーキテクチャの奥行きに応用する新しい学習手法である。
CGARは2つの相乗的要素を導入している: プログレッシブ深さカリキュラムは、トレーニング中に浅層から深層への再帰深さを動的に調整し、計算コストを削減しながら早期のオーバーフィッティングを防止し、階層的スーパービジョンウェイトリングは監督ステップに指数関数的に減衰し、損失重み付けと観測された等級分解とを整列させる。
423,168個のテストパズルで、CGARは1.71倍のトレーニングスピードアップ(10.93~6.38時間、42%のコスト削減)を達成し、精度はわずか0.63%(86.65%~86.02%)である。
体系的な改善は、プログレッシブ深さカリキュラムだけで85.47%の精度で2.26倍のスピードアップを達成し、アーキテクチャカリキュラムがトレーニング効率とソリューション品質を同時に向上する稀なパレートの改善を示す。
CGARをトレーニングしたモデルは、100%停止精度と11%の推論ステップで優れた推論効率を示す。
我々の研究は、アーキテクチャの深さに関する原則的なカリキュラムが、控えめなハードウェア上で再帰的推論モデルの効率的なトレーニングを可能にすることを実証している。
コードとモデル:https://github.com/Kaleemullahqasim/CGAR and https://huggingface.co/Kaleemullah/trm-cgar-sudoku
関連論文リスト
- Deep Progressive Training: scaling up depth capacity of zero/one-layer models [19.649807308477527]
最適化理論のレンズによる大型モデルの深度展開について検討する。
計算と損失の最適トレードオフのためのゼロ/1層プログレッシブトレーニングを提案する。
論文 参考訳(メタデータ) (2025-11-07T04:56:45Z) - AmorLIP: Efficient Language-Image Pretraining via Amortization [52.533088120633785]
Contrastive Language-Image Pretraining (CLIP) は、様々な下流のテキストイメージタスクにまたがる強力なゼロショット性能を示している。
軽量ニューラルネットワークによるコントラスト学習に関わる高価な計算を記憶する,効率的なCLIP事前学習フレームワークであるAmorLIPを提案する。
論文 参考訳(メタデータ) (2025-05-25T05:30:37Z) - Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations [62.132347451049455]
スケールは強力な機械学習モデルを得る上で重要な要素となっている。
本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。
その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
論文 参考訳(メタデータ) (2024-05-28T17:33:54Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Training Efficient CNNS: Tweaking the Nuts and Bolts of Neural Networks
for Lighter, Faster and Robust Models [0.0]
トレーニングパラメータ数を逐次減少させることで,効率的な深層畳み込みネットワークを段階的に構築する方法を実証する。
我々は、MNISTのデータに対して、わずか1500のパラメータで99.2%のSOTA精度と、CIFAR-10データセットで140K以上のパラメータで86.01%の精度を達成した。
論文 参考訳(メタデータ) (2022-05-23T13:51:06Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Curriculum Learning: A Regularization Method for Efficient and Stable
Billion-Scale GPT Model Pre-Training [18.640076155697415]
本稿では,自己回帰モデルによる事前学習の収束速度の向上を支援するカリキュラム学習に基づく手法を提案する。
評価の結果,カリキュラム学習により,バッチサイズが8倍,学習速度が4倍のGPT-2モデルを学習できることがわかった。
論文 参考訳(メタデータ) (2021-08-13T06:32:53Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。