Fugu-MT 論文翻訳(概要): MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation

論文の概要: MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation

arxiv url: http://arxiv.org/abs/2312.17080v3
Date: Tue, 6 Feb 2024 12:27:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 19:12:01.962264
Title: MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation
Title（参考訳）: MR-GSM8K:大規模言語モデル評価におけるメタ推論革命
Authors: Zhongshen Zeng, Pengguang Chen, Shu Liu, Haiyun Jiang, Jiaya Jia
Abstract要約: 本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。このアプローチは、エージェントの認知能力を評価するために伝統的に用いられてきた既存の数学問題解決ベンチマークにおける重大な欠点に対処する。
参考スコア（独自算出の注目度）: 65.07691494584843
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we introduce a novel evaluation paradigm for Large Language Models, one that challenges them to engage in meta-reasoning. This approach addresses critical shortcomings in existing math problem-solving benchmarks, traditionally used to evaluate the cognitive capabilities of agents. Our paradigm shifts the focus from result-oriented assessments, which often overlook the reasoning process, to a more holistic evaluation that effectively differentiates the cognitive capabilities among models. For example, in our benchmark, GPT-4 demonstrates a performance five times better than GPT3-5. The significance of this new paradigm lies in its ability to reveal potential cognitive deficiencies in LLMs that current benchmarks, such as GSM8K, fail to uncover due to their saturation and lack of effective differentiation among varying reasoning abilities. Our comprehensive analysis includes several state-of-the-art math models from both open-source and closed-source communities, uncovering fundamental deficiencies in their training and evaluation approaches. This paper not only advocates for a paradigm shift in the assessment of LLMs but also contributes to the ongoing discourse on the trajectory towards Artificial General Intelligence (AGI). By promoting the adoption of meta-reasoning evaluation methods similar to ours, we aim to facilitate a more accurate assessment of the true cognitive abilities of LLMs.
Abstract（参考訳）: 本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。このアプローチは、従来のエージェントの認知能力を評価するために使用される既存の数学問題解決ベンチマークの重大な欠点に対処する。我々のパラダイムは、しばしば推論プロセスを見落としている結果指向の評価から、モデル間の認知能力を効果的に区別するより包括的な評価へと焦点を移します。例えば、我々のベンチマークでは、GPT-4はGPT3-5の5倍の性能を示している。この新しいパラダイムの意義は、GSM8Kのような現在のベンチマークが、その飽和と様々な推論能力の効果的な分化の欠如のため、LLMの潜在的な認知的欠陥を明らかにする能力にある。当社の包括的な分析には、オープンソースコミュニティとクローズドソースコミュニティの両方の最先端の数学モデルが含まれており、トレーニングと評価アプローチの根本的な欠陥を明らかにしています。本稿では,LLMの評価におけるパラダイムシフトを提唱するだけでなく,AI(Artificial General Intelligence, AGI)の軌道に関する議論にも貢献する。メタ推論評価手法の採用を促進することで,LLMの真の認知能力をより正確に評価することを目指している。

関連論文リスト

KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。 KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文参考訳（メタデータ） (2025-05-20T16:06:32Z)
DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization? [17.97981669263259]
推論可能な大規模言語モデル(LLM)は、最近、複雑な論理的および数学的タスクにおいて顕著な性能を示した。本研究では,機械翻訳(MT)およびテキスト要約(TS)評価タスクにおいて,推論に基づくLLMと非推論のLLMを体系的に比較する。
論文参考訳（メタデータ） (2025-04-10T20:39:18Z)
Exploring the Potential of Large Multimodal Models as Effective Alternatives for Pronunciation Assessment [25.13605642785304]
大規模マルチモーダルモデル(LMM)は、幅広い領域で例外的な性能を示している。本稿では、発音評価タスクにおけるその可能性について検討し、特に生成事前学習変換器(GPT)モデルの性能評価に焦点をあてる。
論文参考訳（メタデータ） (2025-03-14T09:26:07Z)
MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models [5.02953506943752]
MM-IQは、視覚的推論問題4,776の大規模トレーニングセットと、8つの異なる推論パラダイムにまたがる2,710の精巧にキュレートされたテスト項目からなる総合的な評価フレームワークである。最先端のアーキテクチャでさえ、ランダムなチャンスに対してわずかに優れたパフォーマンスしか達成できません。近年の大規模推論モデルの増加にインスパイアされたベースラインとして,検証可能な報酬関数を用いた強化学習によってトレーニングされたマルチモーダル推論モデルもリリースした。
論文参考訳（メタデータ） (2025-02-02T07:12:03Z)
Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [90.86370957353911]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。 CoRは異なる推論パラダイムを用いて複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文参考訳（メタデータ） (2025-01-19T16:53:26Z)
Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments [0.7852714805965528]
206人の回答者から8つの評価指標にまたがって、30のカウンターファクトのシナリオを作成し、評価を収集する。これらの指標で平均的または個人的判断を予測するために、さまざまな大規模言語モデルを微調整しました。
論文参考訳（メタデータ） (2024-10-28T15:33:37Z)
On the Evaluation Consistency of Attribution-based Explanations [42.1421504321572]
本稿では,画像領域における属性メソッドのベンチマークを行うオープンプラットフォームであるMeta-Rankを紹介する。 1) 異なる設定下での属性評価手法の評価は、異なる性能ランキングを得ることができ、2) 多数のケースで矛盾するが、同一のトレーニング軌道に沿った個別のチェックポイントにまたがる顕著な一貫性を示す。
論文参考訳（メタデータ） (2024-07-28T11:49:06Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
CoUDA: Coherence Evaluation via Unified Data Augmentation [49.37157483044349]
コヒーレンス評価は、談話の組織と構造を評価することを目的としている。談話構造に関する言語理論から着想を得て,CoUDAというデータ拡張フレームワークを提案する。 233Mパラメータだけで、CoUDAはポイントワイドのスコアリングとペアワイドのランキングタスクの両方で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-03-31T13:19:36Z)
Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文参考訳（メタデータ） (2023-10-15T07:20:28Z)
DiversiGATE: A Comprehensive Framework for Reliable Large Language Models [2.616506436169964]
LLM検証のための多種多様な方法論を統合する統合フレームワークであるDiversiGATEを導入する。本稿では,DiversiGATEフレームワークに準拠した新たなセルフラーナーモデルを提案する。提案手法は従来のLLMよりも優れており,GSM8Kベンチマークでは54.8%から61.8%の改善が達成されている。
論文参考訳（メタデータ） (2023-06-22T22:29:40Z)
KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。 KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文参考訳（メタデータ） (2023-03-27T17:45:38Z)
Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文参考訳（メタデータ） (2022-06-06T03:38:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。