論文の概要: ArXiv-to-Model: A Practical Study of Scientific LM Training
- arxiv url: http://arxiv.org/abs/2602.17288v1
- Date: Thu, 19 Feb 2026 11:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.007091
- Title: ArXiv-to-Model: A Practical Study of Scientific LM Training
- Title(参考訳): ArXiv-to-Model:科学LMトレーニングの実践的研究
- Authors: Anuj Gupta,
- Abstract要約: 本稿では、生のarXivソースから直接科学言語モデルを訓練するケーススタディを提案する。
トレーニングの安定性、スケーリングの動作、データ収量損失、インフラストラクチャのボトルネックを分析します。
この研究は、スクラッチから小さな科学言語モデルをトレーニングするための、工学的な基礎と透明な説明を提供する。
- 参考スコア(独自算出の注目度): 0.16921396880325776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While frontier large language models demonstrate strong reasoning and mathematical capabilities, the practical process of training domain-specialized scientific language models from raw sources remains under-documented. In this work, we present a detailed case study of training a 1.36B-parameter scientific language model directly from raw arXiv LaTeX sources spanning mathematics, computer science, and theoretical physics. We describe an end-to-end pipeline covering metadata filtering, archive validation, LaTeX extraction, text normalization, domain-aware tokenization, and dense transformer training under constrained compute (2xA100 GPUs). Through 24 experimental runs, we analyze training stability, scaling behavior, data yield losses, and infrastructure bottlenecks. Our findings highlight how preprocessing decisions significantly affect usable token volume, how tokenization impacts symbolic stability, and how storage and I/O constraints can rival compute as limiting factors. We further analyze convergence dynamics and show stable training behavior in a data-rich regime (52B pretraining tokens). Rather than proposing a novel architecture, this work provides an engineering-grounded, transparent account of training a small scientific language model from scratch. We hope these insights support researchers operating under moderate compute budgets who seek to build domain-specialized models.
- Abstract(参考訳): フロンティアの大規模言語モデルは、強力な推論と数学的能力を示す一方で、ドメイン特化された科学言語モデルを原資料から訓練する実践的なプロセスは、まだ文書化されていない。
本研究では、数学、計算機科学、理論物理学にまたがる生のarXiv LaTeXソースから直接、1.36Bパラメータの科学言語モデルを訓練するための詳細なケーススタディを示す。
本稿では,メタデータフィルタリング,アーカイブ検証,LaTeX抽出,テキスト正規化,ドメイン認識トークン化,制約付き計算(2xA100 GPU)下での高密度トランスフォーマートレーニングなどをカバーするエンドツーエンドパイプラインについて述べる。
24回の試験的な実行を通じて、トレーニングの安定性、スケーリングの動作、データ収量損失、インフラストラクチャのボトルネックを分析します。
以上の結果から,前処理による決定がトークン量に与える影響,トークン化がシンボル安定性に与える影響,ストレージとI/Oの制約が計算を制限要因として競合する可能性があること,などが明らかになった。
さらに収束ダイナミクスを解析し、データリッチな状態(52B事前学習トークン)における安定したトレーニング動作を示す。
この研究は、新しいアーキテクチャを提案するのではなく、小さな科学的言語モデルをスクラッチからトレーニングするエンジニアリングを基盤とした透明な説明を提供する。
これらの知見が、ドメイン特化モデルの構築を目指す中程度の計算予算の下で運用されている研究者を支援することを願っています。
関連論文リスト
- Migration as a Probe: A Generalizable Benchmark Framework for Specialist vs. Generalist Machine-Learned Force Fields [1.572216094651749]
機械学習力場(MLFF)は、分子動力学スケールでのアブ初期レベルの精度を実現することによって、計算材料科学を変革している。
研究者たちは、スペシャリストモデルをスクラッチから訓練するか、ファウンデーショナリストのファンデーションモデルを使うべきか、ハイブリッドアプローチを使うべきか?
本稿では, 弾性バンドトラジェクトリを用いて診断プローブとして評価する, 欠陥マイグレーション経路を用いたベンチマークフレームワークを提案する。
微調整モデルでは、運動特性に対するゼロショットおよびゼロショットのアプローチよりも大幅に優れるが、長距離物理学の部分的な損失を示す。
論文 参考訳(メタデータ) (2025-08-27T13:24:41Z) - Reasoning to Learn from Latent Thoughts [61.2395150828168]
本研究では,テキスト生成プロセスの根底にある表現的思考を明示的にモデル化し,推論することにより,事前学習データの効率を大幅に向上させることができることを示す。
1B LMは、少なくとも3回の反復でその性能をブートストラップし、生データに基づいてトレーニングされたベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-03-24T16:41:23Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Physics-Informed Weakly Supervised Learning for Interatomic Potentials [17.165117198519248]
機械学習型原子間ポテンシャル(MLIP)のトレーニングのための物理インフォームド・弱教師付きアプローチを導入する。
我々は、様々なベースラインモデルとベンチマークデータセットに対して、エネルギーと力の誤差を(しばしば2倍以下に)減らすことを示した。
我々のアプローチは、スパースで高精度なアブ・イニシアチブデータに基づく基礎モデルの微調整を改善する。
論文 参考訳(メタデータ) (2024-07-23T12:49:04Z) - Discovering Interpretable Physical Models using Symbolic Regression and
Discrete Exterior Calculus [55.2480439325792]
本稿では,記号回帰(SR)と離散指数計算(DEC)を組み合わせて物理モデルの自動発見を行うフレームワークを提案する。
DECは、SRの物理問題への最先端の応用を越えている、場の理論の離散的な類似に対して、ビルディングブロックを提供する。
実験データから連続体物理の3つのモデルを再発見し,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-10T13:23:05Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文 参考訳(メタデータ) (2021-09-03T14:29:20Z) - Gradient-Based Training and Pruning of Radial Basis Function Networks
with an Application in Materials Physics [0.24792948967354234]
本稿では,高速かつスケーラブルなオープンソース実装による放射状基底関数ネットワークのトレーニング手法を提案する。
連立データと連立データのモデル解析のための新しいクローズドフォーム最適化基準を導出する。
論文 参考訳(メタデータ) (2020-04-06T11:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。