論文の概要: Is More Data Worth the Cost? Dataset Scaling Laws in a Tiny Attention-Only Decoder
- arxiv url: http://arxiv.org/abs/2604.09389v1
- Date: Fri, 10 Apr 2026 15:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.920005
- Title: Is More Data Worth the Cost? Dataset Scaling Laws in a Tiny Attention-Only Decoder
- Title(参考訳): データの価値は高くなるか? 意識のみのデコーダにおけるデータセットのスケーリング法則
- Authors: Götz-Henrik Wiegand, Lorena Raichle, Rico Städeli, Tomas Hrycej, Bernhard Bermeitinger, Siegfried Handschuh,
- Abstract要約: Transformer言語モデルのトレーニングには費用がかかる。
本研究では,アテンションのみのデコーダアーキテクチャを用いて,データセットサイズの影響を分離する。
スケール・ロジスティクスと整合して、鮮明に低下するリターンを伴うスムーズなパフォーマンス改善を観察する。
- 参考スコア(独自算出の注目度): 1.697082719450444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training Transformer language models is expensive, as performance typically improves with increasing dataset size and computational budget. Although scaling laws describe this trend at large scale, their implications in controlled, smaller-scale settings remain less explored. In this work, we isolate dataset-size effects using a strongly reduced attention-only decoder architecture. By training on progressively larger power-of-two subsets, we observe smooth performance improvements accompanied by clear diminishing returns, consistent with scaling-law behavior. Using only about 30% of the training data is sufficient to reach approximately 90% of the full-data validation token-level accuracy. These results provide actionable insights into dataset scaling in a controlled, component-isolated setting and offer practical guidance for balancing dataset size and computational cost in compute- and data-restricted environments, such as small research labs and exploratory model development.
- Abstract(参考訳): Transformer言語モデルのトレーニングには費用がかかる。
スケーリング法則は、この傾向を大規模に記述しているが、その制御における影響は小さいが、いまだに調査されていない。
本研究では,アテンションのみのデコーダアーキテクチャを用いて,データセットサイズの影響を分離する。
段階的に大きくなった2つのサブセットのトレーニングにより、スケール・ロジスティクスに則った、明確なリターンの減少を伴うスムーズなパフォーマンス改善が観察される。
トレーニングデータの約30%しか使用せず、完全なデータ検証トークンレベルの精度の約90%に達するのに十分です。
これらの結果は、制御されたコンポーネント分離された環境でのデータセットのスケーリングに関する実用的な洞察を提供し、小さな研究所や探索モデル開発のような計算およびデータ制限された環境でデータセットのサイズと計算コストのバランスをとるための実践的なガイダンスを提供する。
関連論文リスト
- LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws [21.053622641336744]
ロス・ツー・ロスのスケーリング法則は、事前トレーニングされたデータセットと下流タスク間の損失を関連付ける。
実験の結果,事前学習データとトークン化器がスケーリングの傾向を決定することがわかった。
論文 参考訳(メタデータ) (2025-02-17T18:45:25Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - Scaling Laws for the Value of Individual Data Points in Machine Learning [55.596413470429475]
個々のデータポイントの値のスケーリング行動を調べることによって、新しい視点を導入する。
スケーリング法則を支持するための学習理論を提供し、それが様々なモデルクラスにまたがっていることを実証的に観察する。
私たちの研究は、個々のデータポイントの値のスケーリング特性を理解し、活用するための第一歩です。
論文 参考訳(メタデータ) (2024-05-30T20:10:24Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Scaling Data-Constrained Language Models [133.2083255645999]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文 参考訳(メタデータ) (2023-05-25T17:18:55Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - Beyond neural scaling laws: beating power law scaling via data pruning [37.804100045519846]
理論的には、電力法のスケーリングを超越して、指数的なスケーリングまで削減できる可能性も示しています。
よりシンプルで安価でスケーラブルな自己教師付きプルーニングメトリクスを開発し、最高の教師付き指標に匹敵するパフォーマンスを示す。
全体として、我々の研究は、優れたデータ処理メトリクスの発見が、ニューラルネットワークのスケーリング法則を大幅に改善する上で、実行可能な道筋となることを示唆している。
論文 参考訳(メタデータ) (2022-06-29T09:20:47Z) - Data Scaling Laws in NMT: The Effect of Noise and Architecture [59.767899982937756]
ニューラルネットワーク翻訳(NMT)のデータスケーリング特性に及ぼすアーキテクチャとトレーニングデータ品質の影響について検討する。
データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆しています。
論文 参考訳(メタデータ) (2022-02-04T06:53:49Z) - Scaling Laws for Transfer [0.5432984841650929]
本研究では,教師なし微調整環境における分布間の移動学習のスケーリング法則について検討する。
提案手法は,パラメータ数と微調整データセットサイズに比例したパワーロー則を用いて,データ転送の効率をよく記述する。
論文 参考訳(メタデータ) (2021-02-02T04:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。