論文の概要: Single layer tiny Co$^4$ outpaces GPT-2 and GPT-BERT
- arxiv url: http://arxiv.org/abs/2510.08404v1
- Date: Thu, 09 Oct 2025 16:22:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.19678
- Title: Single layer tiny Co$^4$ outpaces GPT-2 and GPT-BERT
- Title(参考訳): 単一層Co$4$がGPT-2とGPT-BERTを上回る
- Authors: Noor Ul Zain, Mohsin Raza, Ahsan Adeel,
- Abstract要約: Co$4$は、BabyLM ChallengeのベースラインであるGPT-2 (124M, 12 Layer, $O(N2))$とGPT-BERT (30M, 12 Layer, $O(N2))$をわずか2回で上回り、どちらも10回トレーニングされている。
特に、Co$4$は、ゼロショットの7つ中5つ、微調整の7つ中6つでGPT-2、両方のケースで7つ中4つでGPT-BERTを上回っている。
- 参考スコア(独自算出の注目度): 2.3551878971309956
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We show that a tiny Co$^4$ machine(Adeel,2025) with a single layer, two heads, and 8M parameters, operating at an approximate cost of $O(N)$ (where $N$ is the number of input tokens), outpaces the BabyLM Challenge baselines GPT-2 (124M, 12 layers, $O(N^2))$ and GPT-BERT (30M, 12 layers, $O(N^2))$ in just two epochs, while both are trained for ten. Co$^4$ achieves orders-of-magnitude greater training efficiency on 10M tokens, demonstrating highly sample efficient pretraining. Using the BabyLM challenge evaluation pipeline across complex benchmarks, Co$^4$ exhibits strong zero-shot and fine-tuning performance on SuperGLUE tasks. Specifically, Co$^4$ outperforms GPT-2 on 5 out of 7 zero-shot metrics and 6 out of 7 fine-tuning tasks, and GPT-BERT on 4 out of 7 metrics in both cases. These results suggest the need to rethink prevailing deep learning paradigms and associated scaling laws.
- Abstract(参考訳): 1つの層、2つのヘッド、8Mパラメータを持つ小さなCo$^4$ Machine(Adeel,2025)がおよそ$O(N)$($N$は入力トークンの数)で動作し、BabyLM ChallengeのベースラインであるGPT-2 (124M, 12 layer, $O(N^2))$とGPT-BERT (30M, 12 layer, $O(N^2))$をわずか2つのエポックで処理し、どちらも10のトレーニングを受けている。
Co$^4$は10Mトークン上でのトレーニング効率の向上を実現し、高いサンプリング効率の事前トレーニングを実証する。
BabyLMチャレンジ評価パイプラインを複雑なベンチマークで使用して、Co$^4$は、SuperGLUEタスク上で強力なゼロショットと微調整のパフォーマンスを示す。
特に、Co$^4$は、ゼロショットの7つ中5つ、微調整の7つ中6つ、GPT-BERTの7つ中4つで、GPT-2を上回ります。
これらの結果は、一般的なディープラーニングパラダイムと関連するスケーリング法則を再考する必要があることを示唆している。
関連論文リスト
- Position-Aware Depth Decay Decoding ($D^3$): Boosting Large Language Model Inference Efficiency [26.173523821684306]
トークン配置対応層スキップフレームワークを提案し,性能を維持しつつ1.5倍の演算を効率よく節約する。
7 sim 70$のパラメータを持つ大規模言語モデルの実験では、D3$は完全な推論パイプラインと比較して平均1.5倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2025-03-11T15:15:54Z) - Simple ReFlow: Improved Techniques for Fast Flow Models [68.32300636049008]
拡散および流れマッチングモデルは、優れた生成性能を実現するが、多くのサンプリングステップを犠牲にしている。
我々は、力学、学習、推論のトレーニングに7つの改善点を提案する。
我々は、ニューラルネットワークによる高速な生成のために、最先端のFIDスコア(ガイダンスなし/参照なし)を達成している。
論文 参考訳(メタデータ) (2024-10-10T11:00:55Z) - Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training [42.89066583603415]
この作業では、3つの重要な$textitO$bstacleを識別する: 包括的な評価の欠如、(textitO$2) スケーリングのためのテストされていない生存性、(textitO$3) 経験的ガイドラインの欠如。
G_textstack$と呼ばれる深い積み重ね演算子は、トレーニングにおいて顕著な加速を示し、損失が減少し、全体的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-05-24T08:00:00Z) - MinMaxMin $Q$-learning [48.61228614796803]
MinMaxMin $Q$-learningは、過大評価バイアスの問題に対処する新しい楽観的アクター・クリティカルアルゴリズムである。
我々はTD3とTD7の上にMinMaxMinを実装し、最先端の連続空間アルゴリズムに対して厳密なテストを行う。
その結果、すべてのテストタスクでDDPG、TD3、TD7よりもMinMaxMinが一貫したパフォーマンス向上を示した。
論文 参考訳(メタデータ) (2024-02-03T21:58:06Z) - WeGeFT: Weight-Generative Fine-Tuning for Multi-Faceted Efficient Adaptation of Large Models [8.481707805559589]
WeGeFT(Weight-Generative Fine-Tuning)は、トレーニング済みの重みから直接微調整重みを生成することを学習する新しい手法である。
この設計は、パラメータ、表現、計算、メモリの多面的効率を実現し、LoRAとその変種の性能を維持したり、超えたりしている。
論文 参考訳(メタデータ) (2023-12-01T16:33:57Z) - A Quadratic Synchronization Rule for Distributed Deep Learning [66.68264684667562]
本研究は、擬似同期規則(QSR)と呼ばれる$H$を決定するための理論基底法を提案する。
ResNet と ViT の実験により、QSR を用いた局所勾配法は、他の同期戦略よりもテスト精度を一貫して向上することが示された。
論文 参考訳(メタデータ) (2023-10-22T21:38:57Z) - $\mathcal{Y}$-Tuning: An Efficient Tuning Paradigm for Large-Scale
Pre-Trained Models via Label Representation Learning [47.742220473129684]
$mathcalY$-tuningは、与えられたタスクで定義されたラベルの密度の高い表現を学び、それらを固定された特徴表現に調整する。
1.6億のパラメータを持つ$textDeBERTa_textXXL$の場合、$mathcalY$-tuningはGLUE Benchmarkの完全な微調整の96%以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-20T13:49:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。