論文の概要: MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2312.17080v4
- Date: Wed, 5 Jun 2024 04:05:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 03:45:21.308084
- Title: MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation
- Title(参考訳): MR-GSM8K:大規模言語モデル評価のためのメタ推論ベンチマーク
- Authors: Zhongshen Zeng, Pengguang Chen, Shu Liu, Haiyun Jiang, Jiaya Jia,
- Abstract要約: 大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
- 参考スコア(独自算出の注目度): 60.65820977963331
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce a novel evaluation paradigm for Large Language Models (LLMs) that compels them to transition from a traditional question-answering role, akin to a student, to a solution-scoring role, akin to a teacher. This paradigm, focusing on "reasoning about reasoning," hence termed meta-reasoning, shifts the emphasis from result-oriented assessments, which often neglect the reasoning process, to a more comprehensive evaluation that effectively distinguishes between the cognitive capabilities of different models. By applying this paradigm in the GSM8K dataset, we have developed the MR-GSM8K benchmark. Our extensive analysis includes several state-of-the-art models from both open-source and commercial domains, uncovering fundamental deficiencies in their training and evaluation methodologies. Notably, while models like Deepseek-v2 and Claude3-Sonnet closely competed with GPT-4 in GSM8K, their performance disparities expanded dramatically in MR-GSM8K, with differences widening to over 20 absolute points, underscoring the significant challenge posed by our meta-reasoning approach.
- Abstract(参考訳): 本研究では,Large Language Models (LLMs) の新たな評価パラダイムを導入し,従来の質問応答の役割から,教師に類似した問題解決の役割へ移行する。
メタ推論」と呼ばれるこのパラダイムは、推論過程を無視する結果指向の評価から、異なるモデルの認知能力を効果的に区別するより包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
我々の広範な分析には、オープンソースドメインと商用ドメインの両方の最先端モデルが含まれており、そのトレーニングおよび評価手法における根本的な欠陥を明らかにしている。
特に、Deepseek-v2やClaude3-SonnetといったモデルではGPT-4のGSM8Kと密接に競合するが、MR-GSM8Kでは性能格差が劇的に拡大し、20以上の絶対点まで拡張された。
関連論文リスト
- Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments [0.7852714805965528]
206人の回答者から8つの評価指標にまたがって、30のカウンターファクトのシナリオを作成し、評価を収集する。
これらの指標で平均的または個人的判断を予測するために、さまざまな大規模言語モデルを微調整しました。
論文 参考訳(メタデータ) (2024-10-28T15:33:37Z) - On the Evaluation Consistency of Attribution-based Explanations [42.1421504321572]
本稿では,画像領域における属性メソッドのベンチマークを行うオープンプラットフォームであるMeta-Rankを紹介する。
1) 異なる設定下での属性評価手法の評価は、異なる性能ランキングを得ることができ、2) 多数のケースで矛盾するが、同一のトレーニング軌道に沿った個別のチェックポイントにまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-07-28T11:49:06Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - CoUDA: Coherence Evaluation via Unified Data Augmentation [49.37157483044349]
コヒーレンス評価は、談話の組織と構造を評価することを目的としている。
談話構造に関する言語理論から着想を得て,CoUDAというデータ拡張フレームワークを提案する。
233Mパラメータだけで、CoUDAはポイントワイドのスコアリングとペアワイドのランキングタスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-31T13:19:36Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - DiversiGATE: A Comprehensive Framework for Reliable Large Language
Models [2.616506436169964]
LLM検証のための多種多様な方法論を統合する統合フレームワークであるDiversiGATEを導入する。
本稿では,DiversiGATEフレームワークに準拠した新たなセルフラーナーモデルを提案する。
提案手法は従来のLLMよりも優れており,GSM8Kベンチマークでは54.8%から61.8%の改善が達成されている。
論文 参考訳(メタデータ) (2023-06-22T22:29:40Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。