論文の概要: Generative Evaluation of Complex Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2504.02810v1
- Date: Thu, 03 Apr 2025 17:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:58:27.768223
- Title: Generative Evaluation of Complex Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける複雑推論の生成的評価
- Authors: Haowei Lin, Xiangyu Wang, Ruilin Yan, Baizhou Huang, Haotian Ye, Jianhua Zhu, Zihao Wang, James Zou, Jianzhu Ma, Yitao Liang,
- Abstract要約: 大規模言語モデル(LLM)における推論評価に特化して設計された生成的評価フレームワークであるKUMOを紹介する。
自動パイプラインを通じて、KUMOは、超人記憶よりも真の一般化を示すために、オープンエンドドメインにまたがる新しいタスクを連続的に生成する。
我々は、KUMOが作成した100のドメインにまたがる5000のタスクに対して、23の最先端LCMを評価し、大学生に対する推論能力をベンチマークした。
- 参考スコア(独自算出の注目度): 39.195491367590485
- License:
- Abstract: With powerful large language models (LLMs) demonstrating superhuman reasoning capabilities, a critical question arises: Do LLMs genuinely reason, or do they merely recall answers from their extensive, web-scraped training datasets? Publicly released benchmarks inevitably become contaminated once incorporated into subsequent LLM training sets, undermining their reliability as faithful assessments. To address this, we introduce KUMO, a generative evaluation framework designed specifically for assessing reasoning in LLMs. KUMO synergistically combines LLMs with symbolic engines to dynamically produce diverse, multi-turn reasoning tasks that are partially observable and adjustable in difficulty. Through an automated pipeline, KUMO continuously generates novel tasks across open-ended domains, compelling models to demonstrate genuine generalization rather than memorization. We evaluated 23 state-of-the-art LLMs on 5,000 tasks across 100 domains created by KUMO, benchmarking their reasoning abilities against university students. Our findings reveal that many LLMs have outperformed university-level performance on easy reasoning tasks, and reasoning-scaled LLMs reach university-level performance on complex reasoning challenges. Moreover, LLM performance on KUMO tasks correlates strongly with results on newly released real-world reasoning benchmarks, underscoring KUMO's value as a robust, enduring assessment tool for genuine LLM reasoning capabilities.
- Abstract(参考訳): 超人的推論能力を示す強力な大規模言語モデル(LLM)では、重要な疑問が浮かび上がっています。
一般公開されたベンチマークは、後続のLCMトレーニングセットに組み込まれると必然的に汚染され、信頼性を忠実な評価として損なう。
そこで本研究では,LLMにおける推論評価に特化して設計された生成評価フレームワークであるKUMOを紹介する。
KUMOは、LLMとシンボリックエンジンを相乗的に組み合わせて、部分的に観察可能で、困難に調整可能な多様なマルチターン推論タスクを動的に生成する。
自動パイプラインを通じて、KUMOはオープンエンドドメインにまたがる新しいタスクを連続的に生成する。
我々は,KUMOが作成した100のドメインにまたがる5000のタスクに対して,23の最先端LCMを評価し,大学生に対する推論能力を評価した。
以上の結果から,多くのLLMが簡単な推論課題において大学レベルの性能に優れており,複雑な推論課題において,理学規模のLLMが大学レベルの性能に到達していることが明らかとなった。
さらに、KUMOタスクのLLM性能は、新たにリリースされた実世界の推論ベンチマークの結果と強く相関しており、真のLLM推論機能に対する堅牢で永続的な評価ツールとしてのKUMOの価値が強調されている。
関連論文リスト
- Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。