論文の概要: Open-sci-ref-0.01: open and reproducible reference baselines for language model and dataset comparison
- arxiv url: http://arxiv.org/abs/2509.09009v2
- Date: Fri, 12 Sep 2025 05:22:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 12:05:48.658241
- Title: Open-sci-ref-0.01: open and reproducible reference baselines for language model and dataset comparison
- Title(参考訳): Open-sci-ref-0.01: 言語モデルとデータセット比較のためのオープンかつ再現可能な参照ベースライン
- Authors: Marianna Nezhurina, Jörg Franke, Taishi Nakamura, Timur Carstensen, Niccolò Ajroldi, Ville Komulainen, David Salinas, Jenia Jitsev,
- Abstract要約: 複数のモデル(0.13Bから1.7Bパラメータ)とトークンスケール(最大1T)にまたがる研究ベースラインとして訓練された高密度トランスフォーマーモデルの集合であるopen-sci-refを導入する。
様々な標準ベンチマークで モデルを評価しました
- 参考スコア(独自算出の注目度): 10.348287863546593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce open-sci-ref, a family of dense transformer models trained as research baselines across multiple model (0.13B to 1.7B parameters) and token scales (up to 1T) on 8 recent open reference datasets. Evaluating the models on various standardized benchmarks, our training runs set establishes reference points that enable researchers to assess the sanity and quality of alternative training approaches across scales and datasets. Intermediate checkpoints allow comparison and studying of the training dynamics. The established reference baselines allow training procedures to be compared through their scaling trends, aligning them on a common compute axis. Comparison of open reference datasets reveals that training on NemoTron-CC HQ consistently outperforms other reference datasets, followed by DCLM-baseline and FineWeb-Edu. In addition to intermediate training checkpoints, the release includes logs, code, and downstream evaluations to simplify reproduction, standardize comparison, and facilitate future research.
- Abstract(参考訳): これは、複数のモデル(0.13Bから1.7Bパラメータ)とトークンスケール(最大1T)にまたがる研究ベースラインとして訓練された高密度トランスフォーマーモデルのファミリーである。
さまざまな標準ベンチマークでモデルを評価することで、トレーニング実行は、研究者がスケールやデータセットをまたいだ代替トレーニングアプローチの健全性と品質を評価するための基準ポイントを確立します。
中間チェックポイントは、トレーニングダイナミクスの比較と研究を可能にする。
確立された基準ベースラインは、トレーニング手順をスケーリングトレンドを通じて比較し、共通の計算軸に整列させることを可能にする。
オープンリファレンスデータセットの比較では、NemoTron-CC HQでのトレーニングは、DCLM-baselineとFineWeb-Eduに続いて、他のリファレンスデータセットよりも一貫してパフォーマンスが向上していることが明らかになった。
中間的なトレーニングチェックポイントに加えて、ログ、コード、下流の評価が含まれており、複製を簡素化し、比較を標準化し、将来の研究を容易にする。
関連論文リスト
- Scaling Laws for Robust Comparison of Open Foundation Language-Vision Models and Datasets [5.8465717270452195]
モデルとデータセットの比較において,スケール法則の導出がいかに有効かを示す。
初めて、CLIPとMaMMUTという2つの重要な言語ビジョン学習手順のために、完全なスケーリング法則が導出された。
一定の学習率のスケジュールでスケーリング法則を導出する場合も比較が可能であることを示す。
論文 参考訳(メタデータ) (2025-06-05T03:35:59Z) - Evaluating Sample Utility for Efficient Data Selection by Mimicking Model Weights [11.237906163959908]
マルチモーダルモデルは、大規模なWebcrawledデータセットでトレーニングされる。
これらのデータセットは、しばしばノイズ、バイアス、無関係な情報を含む。
Mimic Score を用いた効率的なモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2025-01-12T04:28:14Z) - A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Exploring Federated Deep Learning for Standardising Naming Conventions
in Radiotherapy Data [0.18749305679160366]
放射線治療(RT)データにおける構造容積名の標準化は、データマイニングと分析を可能にするために必要である。
RT患者記録が複数のデータセンターに分散していると考える研究はない。
本稿では,現実の環境をエミュレートして標準化された命名法を提案する。
RTデータをフェデレーション設定で標準化するために,マルチモーダル深層ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:52:28Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - BREEDS: Benchmarks for Subpopulation Shift [98.90314444545204]
本研究では,人口変動に対するモデルのロバスト性を評価する手法を開発した。
既存のデータセットの基盤となるクラス構造を利用して、トレーニングとテストの分散を構成するデータサブポピュレーションを制御する。
この手法をImageNetデータセットに適用し、様々な粒度のサブポピュレーションシフトベンチマークスイートを作成する。
論文 参考訳(メタデータ) (2020-08-11T17:04:47Z) - LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。
本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。
CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-17T17:58:10Z) - Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。
興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文 参考訳(メタデータ) (2020-02-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。