論文の概要: The Unreasonable Effectiveness of Easy Training Data for Hard Tasks
- arxiv url: http://arxiv.org/abs/2401.06751v1
- Date: Fri, 12 Jan 2024 18:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 18:32:37.804208
- Title: The Unreasonable Effectiveness of Easy Training Data for Hard Tasks
- Title(参考訳): ハードタスクのための簡易トレーニングデータの妥当な有効性
- Authors: Peter Hase, Mohit Bansal, Peter Clark, Sarah Wiegreffe
- Abstract要約: 現在の言語モデルは、ハードデータで訓練された"オークル"モデルと同様に、比較的容易にハードデータから一般化されることが多い。
ハードデータ上でモデルパフォーマンスを最も気にしている場合でも、ハードデータよりも簡単なデータを収集してトレーニングする方がよいことを示す。
- 参考スコア(独自算出の注目度): 92.09189936205253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we train models to perform well on hard test data when hard training
data is by definition difficult to label correctly? This question has been
termed the scalable oversight problem and has drawn increasing attention as
language models have continually improved. In this paper, we present the
surprising conclusion that current language models often generalize relatively
well from easy to hard data, even performing as well as "oracle" models trained
on hard data. We demonstrate this kind of easy-to-hard generalization using
simple training methods like in-context learning, linear classifier heads, and
QLoRA for seven different measures of datapoint hardness, including six
empirically diverse human hardness measures (like grade level) and one
model-based measure (loss-based). Furthermore, we show that even if one cares
most about model performance on hard data, it can be better to collect and
train on easy data rather than hard data, since hard data is generally noisier
and costlier to collect. Our experiments use open models up to 70b in size and
four publicly available question-answering datasets with questions ranging in
difficulty from 3rd grade science questions to college level STEM questions and
general-knowledge trivia. We conclude that easy-to-hard generalization in LMs
is surprisingly strong for the tasks studied, suggesting the scalable oversight
problem may be easier than previously thought. Our code is available at
https://github.com/allenai/easy-to-hard-generalization
- Abstract(参考訳): ハードトレーニングデータが正確なラベル付けが難しい場合に、どうやってモデルをトレーニングしてハードテストデータでうまく機能させるのか?
この問題はスケーラブルな監視問題と呼ばれ、言語モデルが継続的に改善され、注目を集めている。
本稿では、現在の言語モデルが、ハードデータで訓練された「奇数」モデルと同様に、比較的容易にハードデータから一般化されることがしばしばあるという驚くべき結論を示す。
本研究では,テキスト内学習,線形分類器ヘッド,QLoRAといった簡易な学習手法を用いて,データポイント硬度を7つの異なる尺度で測定し,これらを実験的に異なる6つの人的硬度測定(グレードレベルなど)と1つのモデルベース測定(ロスベース)に応用した。
さらに,ハードデータに対するモデルパフォーマンスを最も重視している場合でも,ハードデータよりもデータ収集やトレーニングが容易であることを示す。
実験では,70bまでの大きさのオープンモデルと,3年生の理科質問から大学レベルのSTEM質問,一般知識トリヴィアまで,難易度の高い4つの質問回答データセットを用いた。
LMの難易度一般化は, 従来考えられていたよりも, スケーラブルな監視問題は容易である可能性が示唆された。
私たちのコードはhttps://github.com/allenai/easy-to-hard-generalizationで利用可能です。
関連論文リスト
- Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [98.97575836717931]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。
彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文 参考訳(メタデータ) (2024-03-14T15:12:38Z) - Data Factors for Better Compositional Generalization [60.698130703909804]
我々は、異なるデータ要素を持つ様々なトレーニングセット上で、Transformerモデルをトレーニングすることで、経験的分析を行う。
データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。
難易度の異なるトレーニング例が一般化にどう影響するかを考察する。
論文 参考訳(メタデータ) (2023-11-08T01:27:34Z) - Model-agnostic Measure of Generalization Difficulty [7.183430740278161]
そこで本研究では,タスク固有の一般化難易度について,モデルに依存しない最初の尺度を提案する。
本手法は,データから得られる情報を除くタスクの一般化に必要な総情報の定量化を行う。
これは、モデルが一般化しなければならない空間の本質的な次元と指数関数的にスケールするが、次元ごとの分解では直感的にしかできない。
論文 参考訳(メタデータ) (2023-05-01T18:48:55Z) - Split-PU: Hardness-aware Training Strategy for Positive-Unlabeled
Learning [42.26185670834855]
Positive-Unlabeled (PU) 学習は、稀な正のサンプルと豊富な未ラベルサンプルを持つモデルを学ぶことを目的としている。
本稿では、新しいトレーニングパイプラインを用いて、一般的に使われているnnPUの改善に焦点を当てる。
論文 参考訳(メタデータ) (2022-11-30T05:48:31Z) - Difficulty-Net: Learning to Predict Difficulty for Long-Tailed
Recognition [5.977483447975081]
メタラーニングフレームワークにおいて,モデルの性能を用いてクラスの難易度を予測することを学習するDifficulty-Netを提案する。
本稿では,相対的難易度と運転者損失という2つの重要な概念を紹介する。
提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-07T07:04:08Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Information-Theoretic Measures of Dataset Difficulty [54.538766940287864]
データセットの難しさを推定するには、通常、最先端のモデルを人間と比較する。
使用可能な情報の欠如として、フレーミングデータセットの難しさを考慮した情報理論的な視点を提案する。
論文 参考訳(メタデータ) (2021-10-16T00:21:42Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。