Fugu-MT 論文翻訳(概要): The Unreasonable Effectiveness of Easy Training Data for Hard Tasks

論文の概要: The Unreasonable Effectiveness of Easy Training Data for Hard Tasks

arxiv url: http://arxiv.org/abs/2401.06751v1
Date: Fri, 12 Jan 2024 18:36:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-15 18:32:37.804208
Title: The Unreasonable Effectiveness of Easy Training Data for Hard Tasks
Title（参考訳）: ハードタスクのための簡易トレーニングデータの妥当な有効性
Authors: Peter Hase, Mohit Bansal, Peter Clark, Sarah Wiegreffe
Abstract要約: 現在の言語モデルは、ハードデータで訓練された"オークル"モデルと同様に、比較的容易にハードデータから一般化されることが多い。ハードデータ上でモデルパフォーマンスを最も気にしている場合でも、ハードデータよりも簡単なデータを収集してトレーニングする方がよいことを示す。
参考スコア（独自算出の注目度）: 92.09189936205253
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: How can we train models to perform well on hard test data when hard training data is by definition difficult to label correctly? This question has been termed the scalable oversight problem and has drawn increasing attention as language models have continually improved. In this paper, we present the surprising conclusion that current language models often generalize relatively well from easy to hard data, even performing as well as "oracle" models trained on hard data. We demonstrate this kind of easy-to-hard generalization using simple training methods like in-context learning, linear classifier heads, and QLoRA for seven different measures of datapoint hardness, including six empirically diverse human hardness measures (like grade level) and one model-based measure (loss-based). Furthermore, we show that even if one cares most about model performance on hard data, it can be better to collect and train on easy data rather than hard data, since hard data is generally noisier and costlier to collect. Our experiments use open models up to 70b in size and four publicly available question-answering datasets with questions ranging in difficulty from 3rd grade science questions to college level STEM questions and general-knowledge trivia. We conclude that easy-to-hard generalization in LMs is surprisingly strong for the tasks studied, suggesting the scalable oversight problem may be easier than previously thought. Our code is available at https://github.com/allenai/easy-to-hard-generalization
Abstract（参考訳）: ハードトレーニングデータが正確なラベル付けが難しい場合に、どうやってモデルをトレーニングしてハードテストデータでうまく機能させるのか? この問題はスケーラブルな監視問題と呼ばれ、言語モデルが継続的に改善され、注目を集めている。本稿では、現在の言語モデルが、ハードデータで訓練された「奇数」モデルと同様に、比較的容易にハードデータから一般化されることがしばしばあるという驚くべき結論を示す。本研究では,テキスト内学習,線形分類器ヘッド,QLoRAといった簡易な学習手法を用いて,データポイント硬度を7つの異なる尺度で測定し,これらを実験的に異なる6つの人的硬度測定(グレードレベルなど)と1つのモデルベース測定(ロスベース)に応用した。さらに,ハードデータに対するモデルパフォーマンスを最も重視している場合でも,ハードデータよりもデータ収集やトレーニングが容易であることを示す。実験では,70bまでの大きさのオープンモデルと,3年生の理科質問から大学レベルのSTEM質問,一般知識トリヴィアまで,難易度の高い4つの質問回答データセットを用いた。 LMの難易度一般化は, 従来考えられていたよりも, スケーラブルな監視問題は容易である可能性が示唆された。私たちのコードはhttps://github.com/allenai/easy-to-hard-generalizationで利用可能です。

関連論文リスト

Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT? [59.418994222096885]
AIME24データセット上でモデル性能の詳細な解析を行う。我々は質問を4段階(易、中、硬、極度硬)に分類する。我々は,SFT-1Kインスタンスが最小限であるR1推論スタイルを採用する必要があることを見出した。エクレベルの質問は、根本的に異なる課題を示します。
論文参考訳（メタデータ） (2025-04-16T03:39:38Z)
Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.27645170941268]
さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。様々な難易度にまたがる性能と一般化能力を総合的に分析する。
論文参考訳（メタデータ） (2024-09-27T03:49:56Z)
Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones? [65.43882564649721]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも矛盾する問題に悩まされている。我々はConsisEvalベンチマークを開発し、各エントリは厳密な難易度で2つの質問から構成される。相対的整合性スコアによる整合性向上の可能性を分析する。
論文参考訳（メタデータ） (2024-06-18T17:25:47Z)
DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving [15.815363023014248]
本稿では,難解なクエリを合成フェーズに割り当てるDART(Difficulty-Aware Rejection Tuning)を提案する。 DARTは、合成フェーズ中に難しいクエリをより多くのトライアルに割り当て、難しいサンプルのより広範なトレーニングを可能にする。データセットのさまざまなベースモデルを7Bから70Bまで微調整し、DART-MATHと呼ばれる一連の強力なモデルを作成しました。
論文参考訳（メタデータ） (2024-06-18T07:14:02Z)
Data Factors for Better Compositional Generalization [60.698130703909804]
我々は、異なるデータ要素を持つ様々なトレーニングセット上で、Transformerモデルをトレーニングすることで、経験的分析を行う。データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。難易度の異なるトレーニング例が一般化にどう影響するかを考察する。
論文参考訳（メタデータ） (2023-11-08T01:27:34Z)
Split-PU: Hardness-aware Training Strategy for Positive-Unlabeled Learning [42.26185670834855]
Positive-Unlabeled (PU) 学習は、稀な正のサンプルと豊富な未ラベルサンプルを持つモデルを学ぶことを目的としている。本稿では、新しいトレーニングパイプラインを用いて、一般的に使われているnnPUの改善に焦点を当てる。
論文参考訳（メタデータ） (2022-11-30T05:48:31Z)
Difficulty-Net: Learning to Predict Difficulty for Long-Tailed Recognition [5.977483447975081]
メタラーニングフレームワークにおいて,モデルの性能を用いてクラスの難易度を予測することを学習するDifficulty-Netを提案する。本稿では,相対的難易度と運転者損失という2つの重要な概念を紹介する。提案手法の有効性を実証した。
論文参考訳（メタデータ） (2022-09-07T07:04:08Z)
CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文参考訳（メタデータ） (2022-02-11T13:49:51Z)
Information-Theoretic Measures of Dataset Difficulty [54.538766940287864]
データセットの難しさを推定するには、通常、最先端のモデルを人間と比較する。使用可能な情報の欠如として、フレーミングデータセットの難しさを考慮した情報理論的な視点を提案する。
論文参考訳（メタデータ） (2021-10-16T00:21:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。