論文の概要: Position: The Most Expensive Part of an LLM should be its Training Data
- arxiv url: http://arxiv.org/abs/2504.12427v1
- Date: Wed, 16 Apr 2025 18:56:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:39:40.004862
- Title: Position: The Most Expensive Part of an LLM should be its Training Data
- Title(参考訳): LLMの最も高価な部分はトレーニングデータであるべき位置
- Authors: Nikhil Kandpal, Colin Raffel,
- Abstract要約: LLM(Large Language Model)のトレーニングは、計算、ハードウェア、エネルギ、エンジニアリングの要求が増大するため、ますますコストがかかる。
しかし、しばしば見過ごされる(そしてほとんど支払われない)費用は、これらのモデルのトレーニングデータの背後にある人的労働である。
このポジションペーパーは、この労働に金銭的価値を割り当てることを目的としており、LCM生産の最も高価な部分は、データ生産者のトレーニングに提供される報酬であるべきだと論じている。
- 参考スコア(独自算出の注目度): 38.3722794045587
- License:
- Abstract: Training a state-of-the-art Large Language Model (LLM) is an increasingly expensive endeavor due to growing computational, hardware, energy, and engineering demands. Yet, an often-overlooked (and seldom paid) expense is the human labor behind these models' training data. Every LLM is built on an unfathomable amount of human effort: trillions of carefully written words sourced from books, academic papers, codebases, social media, and more. This position paper aims to assign a monetary value to this labor and argues that the most expensive part of producing an LLM should be the compensation provided to training data producers for their work. To support this position, we study 64 LLMs released between 2016 and 2024, estimating what it would cost to pay people to produce their training datasets from scratch. Even under highly conservative estimates of wage rates, the costs of these models' training datasets are 10-1000 times larger than the costs to train the models themselves, representing a significant financial liability for LLM providers. In the face of the massive gap between the value of training data and the lack of compensation for its creation, we highlight and discuss research directions that could enable fairer practices in the future.
- Abstract(参考訳): 最先端のLarge Language Model(LLM)のトレーニングは、計算、ハードウェア、エネルギ、エンジニアリングの要求が増大するため、ますますコストがかかる。
しかし、しばしば見過ごされる(そしてほとんど支払われない)費用は、これらのモデルのトレーニングデータの背後にある人的労働である。
書籍、学術論文、コードベース、ソーシャルメディアなど、慎重に書かれた言葉は何十兆も書かれています。
このポジションペーパーは、この労働に金銭的価値を割り当てることを目的としており、LCM生産の最も高価な部分は、データ生産者の作業に対するトレーニングに提供される報酬であるべきだと論じている。
このポジションをサポートするために、私たちは2016年から2024年にかけてリリースされた64個のLSMを調査し、トレーニングデータセットをスクラッチから作成するための費用を見積もった。
非常に保守的な賃金の見積もりの下でも、これらのモデルのトレーニングデータセットのコストは、モデル自体のトレーニングコストの10-1000倍であり、LLMプロバイダにとって重大な財政的負債を表している。
トレーニングデータの価値と、その作成に対する補償の欠如との間の大きなギャップに直面して、我々は、将来より公正な実践を可能にする研究の方向性を強調し、議論する。
関連論文リスト
- LLM360 K2: Building a 65B 360-Open-Source Large Language Model from Scratch [77.02136168850532]
我々は、LLM360 K2-65Bモデルのトレーニングについて詳述し、私たちの360度OPEN SOURCEアプローチを、プロジェクトLLM360の下で最大かつ最も強力なモデルにスケールアップした。
論文 参考訳(メタデータ) (2025-01-13T08:26:43Z) - Building a Family of Data Augmentation Models for Low-cost LLM Fine-tuning on the Cloud [12.651588927599441]
モデル微調整の効率を大幅に向上するために,データ拡張モデル群を提案する。
これらのモデルは十分に小さなLLMに基づいて訓練され、推論コストの低い重要な機能をサポートする。
実験と応用研究は、我々のアプローチの有効性を証明した。
論文 参考訳(メタデータ) (2024-12-06T09:04:12Z) - Investigating Cost-Efficiency of LLM-Generated Training Data for Conversational Semantic Frame Analysis [18.44272589315175]
高品質で高コストな人的データと、低品質で実質的に安価なLDM生成データとのトレードオフのバランスをとる方法を示す。
様々な予算レベルで実施した実験により,人間とLLM生成データを組み合わせた最適コスト効率が得られた。
論文 参考訳(メタデータ) (2024-10-09T05:15:13Z) - The Future of Large Language Model Pre-training is Federated [15.237418036900582]
我々は,LLM事前学習のための新しいトレーニングパラダイムの調査と開発を可能にする,Photonと呼ばれるスケーラブルなデプロイメントシステムを提案する。
数十億のパラメータを持つLCMを事前学習するために、プライベートデータソースと計算資源とのコラボレーションに関心のある組織がPhotonを利用できることを示す。
さらに,モデルサイズによるフェデレーショントレーニング尺度の有効性を示すとともに,限られた資源を用いて数十億規模のフェデレーションLLMをトレーニングするためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-17T15:27:52Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - FLM-101B: An Open LLM and How to Train It with $100K Budget [63.244403881531035]
その結果,FLM-101Bは,予算1万ドルで成長戦略を訓練し,浮動小数点演算の10%に過ぎず,ベースラインのパフォーマンスの80%に達することがわかった。
先進的なトレーニングに関するさらなる研究は、コストを削減し、グリーンAIを促進することで、コミュニティに恩恵をもたらすと信じている。
論文 参考訳(メタデータ) (2023-09-07T17:07:36Z) - Considerations for health care institutions training large language
models on electronic health records [7.048517095805301]
ChatGPTのような大規模言語モデル(LLM)は、フィールド全体にわたってエキサイティングな科学者を持っている。
医学において、興奮の源の1つは、電子健康記録(EHR)データに基づいて訓練されたLSMの潜在的な応用である。
しかし、医療機関が自身のデータに基づいてLSMをトレーニングすることに関心があるなら、まずは難しい疑問がある。
論文 参考訳(メタデータ) (2023-08-24T00:09:01Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use
Large Language Models for Text Production Tasks [12.723777984461693]
大型言語モデル(LLM)は注目すべきデータアノテータである。
クラウドソーシングは、人間のアノテーションを得るための重要で安価な方法であり、それ自体はLLMの影響を受けているかもしれない。
作業完了時には,33~46%がLLMを使用していた。
論文 参考訳(メタデータ) (2023-06-13T16:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。