論文の概要: NeurIPS 2025 E2LM Competition : Early Training Evaluation of Language Models
- arxiv url: http://arxiv.org/abs/2506.07731v1
- Date: Mon, 09 Jun 2025 13:15:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.136773
- Title: NeurIPS 2025 E2LM Competition : Early Training Evaluation of Language Models
- Title(参考訳): NeurIPS 2025 E2LMコンペティション : 言語モデルの早期評価
- Authors: Mouadh Yagoubi, Yasser Dahou, Billel Mokeddem, Younes Belkada, Phuc H. Le-Khac, Basma El Amel Boussaha, Reda Alami, Jingwei Zuo, Damiano Marsili, Mugariya Farooq, Mounia Lalmas, Georgia Gkioxari, Patrick Gallinari, Philip Torr, Hakim Hacid,
- Abstract要約: このコンペティションは、言語モデルの早期訓練の進捗に適した科学的知識評価タスクを設計するという課題に取り組む。
すべての実験と開発作業は、広く利用可能なクラウドベースのGPUプラットフォーム上で実行できる。
提出は、それらが生成するパフォーマンス信号の品質、トレーニングの1兆トークンにおけるモデルランキングの整合性、科学的知識領域との関連性の3つの基準に基づいて評価される。
- 参考スコア(独自算出の注目度): 25.028881311603385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks have proven effective for assessing the performance of fully trained large language models. However, we find striking differences in the early training stages of small models, where benchmarks often fail to provide meaningful or discriminative signals. To explore how these differences arise, this competition tackles the challenge of designing scientific knowledge evaluation tasks specifically tailored for measuring early training progress of language models. Participants are invited to develop novel evaluation methodologies or adapt existing benchmarks to better capture performance differences among language models. To support this effort, we provide three pre-trained small models (0.5B, 1B, and 3B parameters), along with intermediate checkpoints sampled during training up to 200B tokens. All experiments and development work can be run on widely available free cloud-based GPU platforms, making participation accessible to researchers with limited computational resources. Submissions will be evaluated based on three criteria: the quality of the performance signal they produce, the consistency of model rankings at 1 trillion tokens of training, and their relevance to the scientific knowledge domain. By promoting the design of tailored evaluation strategies for early training, this competition aims to attract a broad range of participants from various disciplines, including those who may not be machine learning experts or have access to dedicated GPU resources. Ultimately, this initiative seeks to make foundational LLM research more systematic and benchmark-informed from the earliest phases of model development.
- Abstract(参考訳): 既存のベンチマークは、完全に訓練された大規模言語モデルの性能を評価するのに有効であることが証明されている。
しかし、ベンチマークが意味のある信号や差別的な信号を提供するのに失敗する小さなモデルの初期の訓練段階では、顕著な違いが見られる。
これらの違いがどのように生じるかを探るため、このコンペティションは、言語モデルの早期訓練の進捗を測定するために特別に調整された科学的知識評価タスクを設計するという課題に取り組む。
参加者は、新しい評価手法を開発したり、既存のベンチマークを適用して、言語モデルのパフォーマンスの違いをよりよく把握するために招待される。
この作業を支援するために、トレーニング中に200Bトークンまでサンプリングされた中間チェックポイントとともに、事前訓練された3つの小さなモデル(0.5B、1B、および3Bパラメータ)を提供する。
すべての実験と開発作業は、広く利用可能なクラウドベースのGPUプラットフォーム上で実行できるため、限られた計算リソースを持つ研究者が参加できる。
提出は、それらが生成するパフォーマンス信号の品質、トレーニングの1兆トークンにおけるモデルランキングの整合性、科学的知識領域との関連性の3つの基準に基づいて評価される。
早期トレーニングのための調整済み評価戦略の設計を促進することで、このコンペティションは、機械学習の専門家でない人や専用のGPUリソースにアクセスできない人など、さまざまな分野から幅広い参加者を惹きつけることを目的としている。
最終的にこのイニシアチブは、モデル開発の初期段階から基礎的なLLM研究をより体系的で、ベンチマークインフォームにすることを目指している。
関連論文リスト
- Findings of the BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [84.03928547166873]
子どもたちは1億ワード未満の入力から言語を習得できる。
大規模な言語モデルはデータ効率がはるかに低く、通常は3~4桁以上のデータを必要とするが、多くの評価において人間ほど性能は高くない。
BabyLM Challengeは、参加者が固定データ予算で言語モデルトレーニングを最適化するために競う共同作業である。
論文 参考訳(メタデータ) (2025-04-10T23:22:43Z) - Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora [79.03392191805028]
BabyLM Challengeは、人間と計算言語学習者のデータ効率ギャップを埋めるためのコミュニティの取り組みである。
参加者は1億ワード以下の固定言語データ予算で、言語モデルトレーニングを最適化するために競争する。
論文 参考訳(メタデータ) (2024-12-06T16:06:08Z) - A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models [0.0]
本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。
我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。
我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-29T19:32:43Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Few Shot Class Incremental Learning using Vision-Language models [24.930246674021525]
本研究では,言語正規化器と部分空間正規化器を利用する,革新的な数ショットクラスインクリメンタルラーニング(FSCIL)フレームワークを提案する。
提案するフレームワークは,限られたデータを持つ新しいクラスをモデルに導入するだけでなく,ベースクラスのパフォーマンスの維持も保証する。
論文 参考訳(メタデータ) (2024-05-02T06:52:49Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Towards Better Instruction Following Language Models for Chinese:
Investigating the Impact of Training Data and Evaluation [12.86275938443485]
本研究では,データ量,品質,言語分布などの学習データ要素がモデル性能に及ぼす影響について検討する。
我々は,実世界の9つのシナリオを含む1,000のサンプルを用いて,様々なモデルを評価する。
GPT-3のようなプロプライエタリな言語モデルに最も近いオープンソースパフォーマンスを持つモデルであるLLaMAの語彙を拡張します。
論文 参考訳(メタデータ) (2023-04-16T18:37:39Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。