論文の概要: Challenge LLMs to Reason About Reasoning: A Benchmark to Unveil
Cognitive Depth in LLMs
- arxiv url: http://arxiv.org/abs/2312.17080v1
- Date: Thu, 28 Dec 2023 15:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 15:52:06.134375
- Title: Challenge LLMs to Reason About Reasoning: A Benchmark to Unveil
Cognitive Depth in LLMs
- Title(参考訳): llmsが推論に挑戦: llmsの認知的深さを明らかにするベンチマーク
- Authors: Zhongshen Zeng, Pengguang Chen, Haiyun Jiang, Jiaya Jia
- Abstract要約: 本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。
このアプローチは、エージェントの認知能力を評価するために伝統的に用いられてきた既存の数学問題解決ベンチマークにおける重大な欠点に対処する。
- 参考スコア(独自算出の注目度): 63.62510002867529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce a novel evaluation paradigm for Large Language
Models, one that challenges them to engage in meta-reasoning. This approach
addresses critical shortcomings in existing math problem-solving benchmarks,
traditionally used to evaluate the cognitive capabilities of agents. Our
paradigm shifts the focus from result-oriented assessments, which often
overlook the reasoning process, to a more holistic evaluation that effectively
differentiates the cognitive capabilities among models. For example, in our
benchmark, GPT-4 demonstrates a performance ten times more accurate than
GPT3-5. The significance of this new paradigm lies in its ability to reveal
potential cognitive deficiencies in LLMs that current benchmarks, such as
GSM8K, fail to uncover due to their saturation and lack of effective
differentiation among varying reasoning abilities. Our comprehensive analysis
includes several state-of-the-art math models from both open-source and
closed-source communities, uncovering fundamental deficiencies in their
training and evaluation approaches. This paper not only advocates for a
paradigm shift in the assessment of LLMs but also contributes to the ongoing
discourse on the trajectory towards Artificial General Intelligence (AGI). By
promoting the adoption of meta-reasoning evaluation methods similar to ours, we
aim to facilitate a more accurate assessment of the true cognitive abilities of
LLMs.
- Abstract(参考訳): 本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。
このアプローチは、従来のエージェントの認知能力を評価するために使用される既存の数学問題解決ベンチマークの重大な欠点に対処する。
我々のパラダイムは、しばしば推論プロセスを見落としている結果指向の評価から、モデル間の認知能力を効果的に区別するより包括的な評価へと焦点を移します。
例えば、我々のベンチマークでは、GPT-4はGPT3-5の10倍の精度を示している。
この新しいパラダイムの意義は、GSM8Kのような現在のベンチマークが、その飽和と様々な推論能力の効果的な分化の欠如のため、LLMの潜在的な認知的欠陥を明らかにする能力にある。
当社の包括的な分析には、オープンソースコミュニティとクローズドソースコミュニティの両方の最先端の数学モデルが含まれており、トレーニングと評価アプローチの根本的な欠陥を明らかにしています。
本稿では,LLMの評価におけるパラダイムシフトを提唱するだけでなく,AI(Artificial General Intelligence, AGI)の軌道に関する議論にも貢献する。
メタ推論評価手法の採用を促進することで,LLMの真の認知能力をより正確に評価することを目指している。
関連論文リスト
- Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments [0.7852714805965528]
206人の回答者から8つの評価指標にまたがって、30のカウンターファクトのシナリオを作成し、評価を収集する。
これらの指標で平均的または個人的判断を予測するために、さまざまな大規模言語モデルを微調整しました。
論文 参考訳(メタデータ) (2024-10-28T15:33:37Z) - On the Evaluation Consistency of Attribution-based Explanations [42.1421504321572]
本稿では,画像領域における属性メソッドのベンチマークを行うオープンプラットフォームであるMeta-Rankを紹介する。
1) 異なる設定下での属性評価手法の評価は、異なる性能ランキングを得ることができ、2) 多数のケースで矛盾するが、同一のトレーニング軌道に沿った個別のチェックポイントにまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-07-28T11:49:06Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - CoUDA: Coherence Evaluation via Unified Data Augmentation [49.37157483044349]
コヒーレンス評価は、談話の組織と構造を評価することを目的としている。
談話構造に関する言語理論から着想を得て,CoUDAというデータ拡張フレームワークを提案する。
233Mパラメータだけで、CoUDAはポイントワイドのスコアリングとペアワイドのランキングタスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-31T13:19:36Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - DiversiGATE: A Comprehensive Framework for Reliable Large Language
Models [2.616506436169964]
LLM検証のための多種多様な方法論を統合する統合フレームワークであるDiversiGATEを導入する。
本稿では,DiversiGATEフレームワークに準拠した新たなセルフラーナーモデルを提案する。
提案手法は従来のLLMよりも優れており,GSM8Kベンチマークでは54.8%から61.8%の改善が達成されている。
論文 参考訳(メタデータ) (2023-06-22T22:29:40Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。