論文の概要: The Unreasonable Effectiveness of Easy Training Data for Hard Tasks
- arxiv url: http://arxiv.org/abs/2401.06751v2
- Date: Wed, 5 Jun 2024 14:10:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 03:35:00.745774
- Title: The Unreasonable Effectiveness of Easy Training Data for Hard Tasks
- Title(参考訳): ハードタスクのための簡易トレーニングデータの不合理な有効性
- Authors: Peter Hase, Mohit Bansal, Peter Clark, Sarah Wiegreffe,
- Abstract要約: 既存の事前学習言語モデルが比較的容易にハードなデータから一般化されることがしばしばあるという驚くべき結論を提示する。
本稿では,テキスト内学習,線形ヘッド,QLoRAなどの簡単な微調整手法を用いて,このような難解な一般化を実演する。
本研究は, LMの難解な一般化が, 研究課題に対して驚くほど強いことを結論づける。
- 参考スコア(独自算出の注目度): 84.30018805150607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we train models to perform well on hard test data when hard training data is by definition difficult to label correctly? This question has been termed the scalable oversight problem and has drawn increasing attention as language models have continually improved. In this paper, we present the surprising conclusion that current pretrained language models often generalize relatively well from easy to hard data, even performing as well as oracle models finetuned on hard data. We demonstrate this kind of easy-to-hard generalization using simple finetuning methods like in-context learning, linear classifier heads, and QLoRA for seven different measures of datapoint hardness, including six empirically diverse human hardness measures (like grade level) and one model-based measure (loss-based). Furthermore, we show that even if one cares most about model performance on hard data, it can be better to collect easy data rather than hard data for finetuning, since hard data is generally noisier and costlier to collect. Our experiments use open models up to 70b in size and four publicly available question-answering datasets with questions ranging in difficulty from 3rd grade science questions to college level STEM questions and general-knowledge trivia. We conclude that easy-to-hard generalization in LMs is surprisingly strong for the tasks studied. Our code is available at: https://github.com/allenai/easy-to-hard-generalization
- Abstract(参考訳): ハードトレーニングデータが正確なラベル付けが難しい場合に、どうやってモデルをトレーニングしてハードテストデータでうまく機能させるのか?
この問題はスケーラブルな監視問題と呼ばれ、言語モデルが継続的に改善され、注目を集めている。
本稿では,既存の事前学習型言語モデルが,ハードデータに微調整されたオラクルモデルと同様に,比較的容易なデータからハードデータまで,比較的よく一般化されるという驚くべき結論を提示する。
本研究では,テキスト内学習,線形分類器ヘッド,QLoRAといった簡易な微調整手法を用いて,データポイントの硬さを7つの異なる尺度で表し,これらを実験的に異なる6つの人的硬さ尺度(グレードレベルなど)と1つのモデルベース尺度(ロスベース)で示す。
さらに, ハードデータのモデル性能を最も気にしている場合でも, ファインタニングのためのハードデータよりも簡単なデータを集める方がよいことを示す。
実験では,70bまでの大きさのオープンモデルと,3年生の理科質問から大学レベルのSTEM質問,一般知識トリヴィアまで,難易度の高い4つの質問回答データセットを用いた。
本研究は, LMの難解な一般化が, 研究課題に対して驚くほど強いことを結論づける。
私たちのコードは、https://github.com/allenai/easy-to-hard- generalizationで利用可能です。
関連論文リスト
- Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones? [65.43882564649721]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも矛盾する問題に悩まされている。
我々はConsisEvalベンチマークを開発し、各エントリは厳密な難易度で2つの質問から構成される。
相対的整合性スコアによる整合性向上の可能性を分析する。
論文 参考訳(メタデータ) (2024-06-18T17:25:47Z) - DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving [15.815363023014248]
本稿では,難解なクエリを合成フェーズに割り当てるDART(Difficulty-Aware Rejection Tuning)を提案する。
DARTは、合成フェーズ中に難しいクエリをより多くのトライアルに割り当て、難しいサンプルのより広範なトレーニングを可能にする。
データセットのさまざまなベースモデルを7Bから70Bまで微調整し、DART-MATHと呼ばれる一連の強力なモデルを作成しました。
論文 参考訳(メタデータ) (2024-06-18T07:14:02Z) - Data Factors for Better Compositional Generalization [60.698130703909804]
我々は、異なるデータ要素を持つ様々なトレーニングセット上で、Transformerモデルをトレーニングすることで、経験的分析を行う。
データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。
難易度の異なるトレーニング例が一般化にどう影響するかを考察する。
論文 参考訳(メタデータ) (2023-11-08T01:27:34Z) - Split-PU: Hardness-aware Training Strategy for Positive-Unlabeled
Learning [42.26185670834855]
Positive-Unlabeled (PU) 学習は、稀な正のサンプルと豊富な未ラベルサンプルを持つモデルを学ぶことを目的としている。
本稿では、新しいトレーニングパイプラインを用いて、一般的に使われているnnPUの改善に焦点を当てる。
論文 参考訳(メタデータ) (2022-11-30T05:48:31Z) - Difficulty-Net: Learning to Predict Difficulty for Long-Tailed
Recognition [5.977483447975081]
メタラーニングフレームワークにおいて,モデルの性能を用いてクラスの難易度を予測することを学習するDifficulty-Netを提案する。
本稿では,相対的難易度と運転者損失という2つの重要な概念を紹介する。
提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-07T07:04:08Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Information-Theoretic Measures of Dataset Difficulty [54.538766940287864]
データセットの難しさを推定するには、通常、最先端のモデルを人間と比較する。
使用可能な情報の欠如として、フレーミングデータセットの難しさを考慮した情報理論的な視点を提案する。
論文 参考訳(メタデータ) (2021-10-16T00:21:42Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。