論文の概要: Is Training Data Quality or Quantity More Impactful to Small Language Model Performance?
- arxiv url: http://arxiv.org/abs/2411.15821v1
- Date: Sun, 24 Nov 2024 12:51:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:24:46.196087
- Title: Is Training Data Quality or Quantity More Impactful to Small Language Model Performance?
- Title(参考訳): データ品質のトレーニングは、より小さな言語モデルのパフォーマンスに影響を及ぼすか?
- Authors: Aryan Sajith, Krishna Chaitanya Rao Kathala,
- Abstract要約: 本研究では,学習データ品質と量の違いが小言語モデル(SLM)の性能に及ぼす影響について検討する。
大規模モデルのトレーニングは、組織、個人、一般の人々に対して禁止される、重大な財政的および計算的負担を課す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study investigates the relative impact of training data quality versus quantity on the performance of small language models (SLMs), utilizing the TinyStories dataset for empirical analysis. Analysis of dataset variations with respect to size (25% and 50% of the original size) and duplication (controlled rates of 25%, 50%, 75%, and 100%) were performed. Model performance was evaluated based on the validation loss, accuracy, and perplexity metrics. Results indicate training data quality plays a more significant role in the overall performance of SLMs, especially given scale of this experiment. Minimal duplication positively impacted model accuracy (+0.87% increase in accuracy at 25% duplication) without significantly increasing perplexity (+0.52% increase going from 0% to 25% duplication) but excessive duplication led to pronounced performance degradation (-40% drop in accuracy at 100% duplication). The implications of this exploration extend beyond just model performance; training large-scale models imposes significant financial and computational burdens, which can be prohibitive for organizations, individuals, and the public at large, especially in developing countries. Additionally, the energy consumption associated with large-scale training raises environmental concerns. Understanding the relative importance of data quality versus quantity could democratize AI technology, making advanced models more accessible and sustainable for all.
- Abstract(参考訳): 本研究では、TinyStoriesデータセットを用いて、学習データ品質と量の違いが小言語モデル(SLM)の性能に与える影響について検討した。
サイズ(原サイズの25%から50%)と重複(25%,50%,75%,100%)に関するデータセットの変動解析を行った。
モデル性能は, 検証損失, 精度, 複雑度測定値に基づいて評価した。
その結果、SLMの全体的な性能、特にこの実験の規模において、トレーニングデータ品質がより重要な役割を担っていることが明らかとなった。
極小複製はモデル精度(25%複製で精度が0.87%上昇)に悪影響を及ぼすが、難解度は0%から25%複製で0.52%上昇)、過度の複製は性能劣化(100%複製で精度が40%低下)を顕著に招いた。
大規模モデルの訓練は、組織、個人、一般の人々、特に発展途上国において、大きな経済的および計算的負担を課す。
さらに、大規模な訓練に伴うエネルギー消費は、環境問題を引き起こす。
データ品質と量との相対的な重要性を理解することは、AI技術を民主化し、高度なモデルをよりアクセスしやすく、持続可能なものにする。
関連論文リスト
- Efficient Brain Tumor Classification with Lightweight CNN Architecture: A Novel Approach [0.0]
MRI画像を用いた脳腫瘍の分類は、早期かつ正確な検出が患者の予後に大きな影響を及ぼす医療診断において重要である。
近年のディープラーニング(DL)の進歩は将来性を示しているが、多くのモデルは精度と計算効率のバランスに苦慮している。
本稿では,分離可能な畳み込みと圧縮・励振ブロック(SEブロック)を統合した新しいモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-01T21:06:42Z) - Exploring the Impact of Dataset Statistical Effect Size on Model Performance and Data Sample Size Sufficiency [2.444909460562512]
基礎的な記述的統計測度が、データセットが結果モデルのトレーニングにおいてどれだけ効果的かを示すことができるかどうかを、よりよく確かめるために行われた2つの実験について報告する。
以上の結果から,本手法は適切なサンプルサイズや投影モデルの性能を決定する上では有効ではないことが示唆される。
論文 参考訳(メタデータ) (2025-01-05T22:03:46Z) - AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs [61.13296177652599]
本稿では,異なる領域からのトレーニングデータの最適構成がスケール依存であることを示す。
我々は、潜在的に大規模なトレーニングデータスケールでデータ合成を最適化するための、新しい実用的なアプローチである*AutoScale*を紹介します。
GPT-2Large and BERT pre-training の評価は,トレーニング収束性および下流性能向上における *AutoScale* の有効性を示す。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Which Augmentation Should I Use? An Empirical Investigation of Augmentations for Self-Supervised Phonocardiogram Representation Learning [5.438725298163702]
自己監視型学習(SSL) 対照的な学習は、データの不足を軽減できる可能性を示している。
本研究の目的は,PCG分類におけるSSLモデルの性能向上を目的とした,幅広いオーディオベースの拡張と組み合わせの探索と評価である。
論文 参考訳(メタデータ) (2023-12-01T11:06:00Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - On the Connection between Pre-training Data Diversity and Fine-tuning
Robustness [66.30369048726145]
下流の有効ロバスト性に影響を与える主な要因はデータ量である。
各種自然および合成データソースから抽出した事前学習分布について,本研究の成果を示す。
論文 参考訳(メタデータ) (2023-07-24T05:36:19Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - Complementary Ensemble Learning [1.90365714903665]
我々は最先端のディープラーニングモデルの性能向上手法を考案した。
具体的には、最先端モデルの不確実性を補完できる補助モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-09T03:23:05Z) - The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning [25.85044477227461]
このベースラインに対するアウト・オブ・ディストリビューションデータより正確であるモデルは「有効ロバスト性」を示す。
より大規模なデータセットで事前トレーニングされたモデルは、収束時に消滅するトレーニング中に効果的な堅牢性を示す。
本稿では, 最先端システムに効率的なロバスト性を拡張し, 最先端モデルの分布外精度を向上させるためのいくつかの戦略について論じる。
論文 参考訳(メタデータ) (2021-06-30T06:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。