論文の概要: Revisiting Generalization Across Difficulty Levels: It's Not So Easy
- arxiv url: http://arxiv.org/abs/2511.21692v1
- Date: Wed, 26 Nov 2025 18:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.266433
- Title: Revisiting Generalization Across Difficulty Levels: It's Not So Easy
- Title(参考訳): 難易度を越えて一般化を再考する - それほど簡単ではない
- Authors: Yeganeh Kordi, Nihal V. Nayak, Max Zuo, Ilana Nguyen, Stephen H. Bach,
- Abstract要約: 本研究では,大規模言語モデルがタスクの難易度によってどのように一般化されるかを検討する。
簡単なデータでも難しいデータでも、あらゆる難易度で一貫した改善を達成できないことを示す。
- 参考スコア(独自算出の注目度): 11.203451380580868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate how well large language models (LLMs) generalize across different task difficulties, a key question for effective data curation and evaluation. Existing research is mixed regarding whether training on easier or harder data leads to better results, and whether those gains come on easier or harder test data. We address this question by conducting a systematic evaluation of LLMs' generalization across models, datasets, and fine-grained groups of example difficulty. We rank examples in six datasets using the outputs of thousands of different LLMs and Item Response Theory (IRT), a well-established difficulty metric in educational testing. Unlike prior work, our difficulty ratings are therefore determined solely by the abilities of many different LLMs, excluding human opinions of difficulty. With a more objective, larger-scale, and finer-grained analysis, we show that cross-difficulty generalization is often limited; training on either easy or hard data cannot achieve consistent improvements across the full range of difficulties. These results show the importance of having a range of difficulties in both training and evaluation data for LLMs, and that taking shortcuts with respect to difficulty is risky.
- Abstract(参考訳): 本研究では,大規模言語モデル (LLM) が,データキュレーションと評価において重要な課題である,様々な課題にまたがっていかに一般化するかを検討する。
既存の研究は、より簡単か、より難しいデータに対するトレーニングがより良い結果をもたらすか、それらがより簡単か、より難しいテストデータをもたらすか、という点で混ざり合っています。
本研究では, LLMのモデル, データセット, きめ細かなサンプル難易度群に対する一般化の体系的評価を行うことにより, この問題に対処する。
我々は、何千もの異なるLCMと項目応答理論(IRT)の出力を用いて、6つのデータセットの例をランク付けする。
従来の作業とは異なり、難易度は、難易度に関する人間の意見を除いて、多くの異なるLLMの能力によってのみ決定される。
より客観的で、より大規模で、よりきめ細かな分析により、クロスディフルトな一般化がしばしば制限されることが示され、簡単またはハードなデータのトレーニングは、あらゆる困難で一貫した改善を達成できない。
これらの結果から,LSMのトレーニングデータと評価データの両方が困難であること,難易度に関してショートカットを行うことが危険であることが示唆された。
関連論文リスト
- Probing the Difficulty Perception Mechanism of Large Language Models [31.945071671041465]
本研究では,大言語モデルが内部表現における問題難易度を暗黙的にエンコードするかどうかを考察する。
最終変圧器層の特定の注意点を見つける。
LLMを自動困難アノテータとして使用するための実用的サポートを提供する実験。
論文 参考訳(メタデータ) (2025-10-07T14:24:32Z) - DAST: Difficulty-Aware Self-Training on Large Language Models [68.30467836807362]
大規模言語モデル(LLM)の自己学習手法は、常に挑戦的なクエリのアンダーサンプルである。
本研究は,自己生成応答の量と品質を改善することに焦点を当てた,難易度を考慮した自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-12T03:36:45Z) - Easy2Hard-Bench: Standardized Difficulty Labels for Profiling LLM Performance and Generalization [126.27645170941268]
さまざまなドメインにまたがる6つのベンチマークデータセットのコレクションであるEasy2Hard-Benchを紹介します。
これらのデータセット内の各問題は、数値的な難易度スコアで注釈付けされる。
様々な難易度にまたがる性能と一般化能力を総合的に分析する。
論文 参考訳(メタデータ) (2024-09-27T03:49:56Z) - Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones? [65.43882564649721]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも矛盾する問題に悩まされている。
我々はConsisEvalベンチマークを開発し、各エントリは厳密な難易度で2つの質問から構成される。
相対的整合性スコアによる整合性向上の可能性を分析する。
論文 参考訳(メタデータ) (2024-06-18T17:25:47Z) - The Unreasonable Effectiveness of Easy Training Data for Hard Tasks [84.30018805150607]
既存の事前学習言語モデルが比較的容易にハードなデータから一般化されることがしばしばあるという驚くべき結論を提示する。
本稿では,テキスト内学習,線形ヘッド,QLoRAなどの簡単な微調整手法を用いて,このような難解な一般化を実演する。
本研究は, LMの難解な一般化が, 研究課題に対して驚くほど強いことを結論づける。
論文 参考訳(メタデータ) (2024-01-12T18:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。