論文の概要: EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving
- arxiv url: http://arxiv.org/abs/2506.02672v1
- Date: Tue, 03 Jun 2025 09:18:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.513902
- Title: EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving
- Title(参考訳): EvaLearn: 逐次問題解決によるLLMの学習能力と効率の定量化
- Authors: Shihan Dou, Ming Zhang, Chenhao Huang, Jiayi Chen, Feng Chen, Shichun Liu, Yan Liu, Chenxiao Liu, Cheng Zhong, Zongzhang Zhang, Tao Gui, Chao Xin, Wei Chengzhi, Lin Yan, Qi Zhang, Xuanjing Huang,
- Abstract要約: EvaLearnは、大きな言語モデル(LLM)を学習能力と課題の効率性を評価するために設計されたベンチマークである。
9つのフロンティアモデルをベンチマークし、様々な性能プロファイルを観察する。
静的能力の強い現在のLLMは、全てのタスクにおいて学習能力に明らかな優位性を示すものではない。
- 参考スコア(独自算出の注目度): 54.44269624385919
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We introduce EvaLearn, a pioneering benchmark designed to evaluate large language models (LLMs) on their learning capability and efficiency in challenging tasks, a critical, yet underexplored aspect of model potential. EvaLearn contains 648 challenging problems across six task types, grouped into 182 sequences, each sequence dedicated to one task type. Diverging from most existing benchmarks that evaluate models in parallel, EvaLearn requires models to solve problems sequentially, allowing them to leverage the experience gained from previous solutions. EvaLearn provides five comprehensive automated metrics to evaluate models and quantify their learning capability and efficiency. We extensively benchmark nine frontier models and observe varied performance profiles: some models, such as Claude-3.7-sonnet, start with moderate initial performance but exhibit strong learning ability, while some models struggle to benefit from experience and may even show negative transfer. Moreover, we investigate model performance under two learning settings and find that instance-level rubrics and teacher-model feedback further facilitate model learning. Importantly, we observe that current LLMs with stronger static abilities do not show a clear advantage in learning capability across all tasks, highlighting that EvaLearn evaluates a new dimension of model performance. We hope EvaLearn provides a novel evaluation perspective for assessing LLM potential and understanding the gap between models and human capabilities, promoting the development of deeper and more dynamic evaluation approaches. All datasets, the automatic evaluation framework, and the results studied in this paper are available at the GitHub repository.
- Abstract(参考訳): EvaLearnは、大規模言語モデル(LLM)の学習能力と課題の効率性を評価するために設計された先駆的なベンチマークである。
EvaLearnには、6つのタスクタイプにまたがる648の課題があり、1つのタスクタイプ専用の182のシーケンスにグループ化されている。
モデルを並列に評価する既存のベンチマークとは違い、EvaLearnでは、モデルをシーケンシャルに解決する必要があるため、以前のソリューションから得られるエクスペリエンスを活用することができる。
EvaLearnは5つの総合的な自動メトリクスを提供し、モデルを評価し、学習能力と効率を定量化する。
例えば、Claude-3.7-sonnetは中程度の初期性能から始まるが、強力な学習能力を示すモデルもある。
さらに,2つの学習環境下でのモデル性能について検討し,モデル学習の促進を図る。
重要なことは、現在の静的能力を持つLLMは、全てのタスクにおいて学習能力において明らかな優位性を示していないことであり、EvaLearnがモデル性能の新たな次元を評価することを強調している。
EvaLearnは、LLMの可能性を評価し、モデルと人間の能力のギャップを理解し、より深くよりダイナミックな評価手法の開発を促進するための、新しい評価視点を提供することを期待している。
この論文で研究されたすべてのデータセット、自動評価フレームワーク、結果はGitHubリポジトリで公開されている。
関連論文リスト
- Catastrophic Forgetting in LLMs: A Comparative Analysis Across Language Tasks [0.0]
大規模言語モデル(LLM)は、かなり高度な自然言語処理(NLP)を持つ
本研究では,主要なNLUタスクに対する各種オープンソースLLMの連続的な微調整について検討する。
以上の結果から,Phi-3.5-miniのようなモデルでは,強い学習能力を維持しつつ,最小限の忘れを生じさせることが示唆された。
論文 参考訳(メタデータ) (2025-04-01T23:06:55Z) - Learning-based Models for Vulnerability Detection: An Extensive Study [3.1317409221921144]
我々は、最先端の学習ベースアプローチの2つのタイプを広範かつ包括的に調査する。
本稿では,シーケンスベースモデルの優先度と,グラフベースモデルの限定能力について実験的に検証する。
論文 参考訳(メタデータ) (2024-08-14T13:01:30Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Teaching Language Models to Self-Improve through Interactive Demonstrations [83.9421355808174]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - Learning Objective-Specific Active Learning Strategies with Attentive
Neural Processes [72.75421975804132]
学び アクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。
能動学習問題の対称性と独立性を利用した新しい分類法を提案する。
私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文 参考訳(メタデータ) (2023-09-11T14:16:37Z) - Distill on the Go: Online knowledge distillation in self-supervised
learning [1.1470070927586016]
最近の研究では、より広範でより深いモデルは、小さなモデルよりも自己監督学習の恩恵を受けることが示されている。
単段階オンライン知識蒸留を用いた自己指導型学習パラダイムであるDistill-on-the-Go(DoGo)を提案する。
以上の結果から,ノイズラベルや限定ラベルの存在下でのパフォーマンス向上がみられた。
論文 参考訳(メタデータ) (2021-04-20T09:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。