論文の概要: DEEPQUESTION: Systematic Generation of Real-World Challenges for Evaluating LLMs Performance
- arxiv url: http://arxiv.org/abs/2505.24532v1
- Date: Fri, 30 May 2025 12:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.948164
- Title: DEEPQUESTION: Systematic Generation of Real-World Challenges for Evaluating LLMs Performance
- Title(参考訳): DEEPQUESTION:LLMの性能評価のための実世界の課題の体系的生成
- Authors: Ali Khoramfar, Ali Ramezani, Mohammad Mahdi Mohajeri, Mohammad Javad Dousti, Majid Nili Ahmadabadi, Heshaam Faili,
- Abstract要約: 私たちは、Bloomの分類に基づいて既存のデータセットを拡張するスケーラブルな自動化フレームワークであるDeepQuestionを紹介します。
我々は,高次タスクにおいて高い性能低下(最大70%の精度低下)を示し,深い推論において持続的なギャップを減らした。
- 参考スコア(独自算出の注目度): 3.9770095824794516
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: LLMs often excel on standard benchmarks but falter on real-world tasks. We introduce DeepQuestion, a scalable automated framework that augments existing datasets based on Bloom's taxonomy and creates novel questions that trace original solution paths to probe evaluative and creative skills. Extensive experiments across ten open-source and proprietary models, covering both general-purpose and reasoning LLMs, reveal substantial performance drops (even up to 70% accuracy loss) on higher-order tasks, underscoring persistent gaps in deep reasoning. Our work highlights the need for cognitively diverse benchmarks to advance LLM progress. DeepQuestion and related datasets will be released upon acceptance of the paper.
- Abstract(参考訳): LLMは標準ベンチマークに長けているが、現実のタスクに長けている。
私たちは、スケーラブルな自動化フレームワークDeepQuestionを紹介します。これは、Bloomの分類に基づいて既存のデータセットを拡張し、独自のソリューションパスをトレースして評価的かつ創造的なスキルを探索する、新たな質問を生成します。
10のオープンソースおよびプロプライエタリなモデルにわたる大規模な実験は、汎用と推論の両方をカバーし、高次タスクにおける大幅なパフォーマンス低下(最大70%の精度低下)を示し、深い推論における永続的なギャップを暗示している。
我々の研究は、LLMの進歩を進めるための認知学的に多様なベンチマークの必要性を強調している。
DeepQuestionと関連するデータセットは、論文の受理時にリリースされる予定である。
関連論文リスト
- Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation [19.312330150540912]
新たなアプリケーションは、Large Language Models(LLMs)を使用して、検索強化世代(RAG)機能を強化している。
FRAMESは,LLMが現実的な応答を提供する能力をテストするために設計された高品質な評価データセットである。
本稿では,最先端のLLMでもこの課題に対処し,0.40の精度で検索を行なわないことを示す。
論文 参考訳(メタデータ) (2024-09-19T17:52:07Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
不完全なドキュメンテーション、不正確なラベル、倫理的懸念、時代遅れの情報といったデータ品質問題は、広く使われているデータセットで共通している。
大きな言語モデル(LLM)の急増する能力により、LLMエージェントによる隠れデータセット問題の発見の合理化が約束されている。
本研究では,この課題に対処するLLMエージェントの能力を評価するためのベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - NYU CTF Bench: A Scalable Open-Source Benchmark Dataset for Evaluating LLMs in Offensive Security [28.125179435861316]
大規模言語モデル(LLM)は、さまざまなドメインにデプロイされているが、Capture the Flag(CTF)の課題を解決する能力は、十分に評価されていない。
我々は、スケーラブルでオープンソースのベンチマークデータベースを作成することで、CTFの課題を解決する上で、LCMを評価する新しい手法を開発した。
このデータベースは、LLMテストと適応学習のためのメタデータを含み、人気のあるコンペからさまざまなCTF課題をコンパイルする。
論文 参考訳(メタデータ) (2024-06-08T22:21:42Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。