論文の概要: Not Every AI Problem is a Data Problem: We Should Be Intentional About Data Scaling
- arxiv url: http://arxiv.org/abs/2501.13779v1
- Date: Thu, 23 Jan 2025 15:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:59.644109
- Title: Not Every AI Problem is a Data Problem: We Should Be Intentional About Data Scaling
- Title(参考訳): すべてのAI問題はデータ問題ではない - データスケーリングに注意を払うべきだ
- Authors: Tanya Rodchenko, Natasha Noy, Nino Scherrer, Jennifer Prendki,
- Abstract要約: 大規模言語モデルは、取得するデータを探すのではなく、トレーニングとスケールのためにより多くのデータを必要とします。
データ自体のトポロジは、データスケーリングにおいてどのタスクを優先順位付けすべきかを知らせるものだ、と私たちは主張する。
- 参考スコア(独自算出の注目度): 1.4686956115342287
- License:
- Abstract: While Large Language Models require more and more data to train and scale, rather than looking for any data to acquire, we should consider what types of tasks are more likely to benefit from data scaling. We should be intentional in our data acquisition. We argue that the topology of data itself informs which tasks to prioritize in data scaling, and shapes the development of the next generation of compute paradigms for tasks where data scaling is inefficient, or even insufficient.
- Abstract(参考訳): 大きな言語モデルでは、トレーニングとスケールのためにより多くのデータが必要ですが、取得するデータを探すのではなく、データスケーリングの恩恵を受ける可能性のあるタスクの種類を検討する必要があります。
データ取得は意図的に行うべきです。
データ自体のトポロジは、データスケーリングにおいてどのタスクを優先順位付けすべきかを知らせ、データのスケーリングが非効率なタスクや、あるいは不十分なタスクのための次世代の計算パラダイムの開発を形作る、と我々は主張する。
関連論文リスト
- The Data Addition Dilemma [4.869513274920574]
医療タスクのための多くの機械学習では、標準データセットは、多くの、基本的に異なるソースにまたがるデータを集約することによって構築される。
しかし、いつより多くのデータを追加することが助けになるのか、いつ、実際の設定で望ましいモデル結果の進行を妨げるのか?
この状況をtextitData Addition Dilemma と認識し、このマルチソーススケーリングコンテキストにトレーニングデータを追加すると、全体的な精度が低下し、不確実なフェアネスの結果が減少し、最悪のサブグループのパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2024-08-08T01:42:31Z) - How big is Big Data? [0.18472148461613155]
一般的な材料科学の機械学習問題において、それが何を意味するかを評価する。
モデルが類似したデータセットにどのように一般化するか、異種ソースから高品質なデータセットを収集できるかを問う。
ビッグデータには,作業のモチベーションを向上する上で,非常に異なる側面に沿って,ユニークな課題が存在していることが分かっています。
論文 参考訳(メタデータ) (2024-05-18T22:13:55Z) - Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Data Augmentation for Neural NLP [0.0]
データ拡張は、データの不足に対処するための低コストなアプローチである。
本稿では,自然言語処理における最先端データ拡張手法の概要について述べる。
論文 参考訳(メタデータ) (2023-02-22T14:47:15Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - A Proposal to Study "Is High Quality Data All We Need?" [8.122270502556374]
本稿では,高品質なベンチマークデータのサブセットの選択方法,および/または生成方法を検討するための実証的研究を提案する。
私たちは、タスクを学ぶために大きなデータセットが本当に必要かどうか、そして、高品質なデータの小さなサブセットが大きなデータセットを置き換えることができるかどうかに答えようとしています。
論文 参考訳(メタデータ) (2022-03-12T10:50:13Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。