論文の概要: Metric Calculating Benchmark: Code-Verifiable Complicate Instruction Following Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.07892v1
- Date: Thu, 09 Oct 2025 07:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.937498
- Title: Metric Calculating Benchmark: Code-Verifiable Complicate Instruction Following Benchmark for Large Language Models
- Title(参考訳): メトリック計算ベンチマーク:大規模言語モデルのベンチマークに続くコード検証可能な複雑命令
- Authors: Hyeonseok Moon, Seongtae Hong, Jaehyung Seo, Heuiseok Lim,
- Abstract要約: MCBenchは,LLMが厳密なステップバイステップ命令に従うことで,文字列マッチングNLPメトリクスの実行が可能なかどうかを評価するためのベンチマークである。
主観的判断や一般的な推論に依存する以前のベンチマークとは異なり、MCBenchは客観的、決定論的、コード検証可能な評価を提供する。
- 参考スコア(独自算出の注目度): 29.093730687124047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent frontier-level LLMs have saturated many previously difficult benchmarks, leaving little room for further differentiation. This progress highlights the need for challenging benchmarks that provide objective verification. In this paper, we introduce MCBench, a benchmark designed to evaluate whether LLMs can execute string-matching NLP metrics by strictly following step-by-step instructions. Unlike prior benchmarks that depend on subjective judgments or general reasoning, MCBench offers an objective, deterministic and codeverifiable evaluation. This setup allows us to systematically test whether LLMs can maintain accurate step-by-step execution, including instruction adherence, numerical computation, and long-range consistency in handling intermediate results. To ensure objective evaluation of these abilities, we provide a parallel reference code that can evaluate the accuracy of LLM output. We provide three evaluative metrics and three benchmark variants designed to measure the detailed instruction understanding capability of LLMs. Our analyses show that MCBench serves as an effective and objective tool for evaluating the capabilities of cutting-edge LLMs.
- Abstract(参考訳): 最近のフロンティアレベルのLLMは、これまで多くの困難なベンチマークを飽和させており、さらなる分化の余地はほとんど残っていない。
この進歩は、客観的な検証を提供する挑戦的なベンチマークの必要性を強調している。
本稿では,LLM が文字列マッチング NLP メトリクスを,ステップバイステップの指示に厳格に従うことで実行可能であるかどうかを評価するベンチマーク MCBench を紹介する。
主観的判断や一般的な推論に依存する以前のベンチマークとは異なり、MCBenchは客観的、決定論的、コード検証可能な評価を提供する。
この設定により,命令順守,数値計算,中間処理における長距離整合性など,LLMが正確なステップバイステップ実行を維持できるかどうかを系統的に検証できる。
これらの能力を客観的に評価するために,LLM出力の精度を評価可能な並列参照コードを提供する。
LLMの詳細な命令理解能力を測定するために、3つの評価指標と3つのベンチマーク変種を提供する。
解析の結果,MCBenchは最先端LLMの性能評価に有効で客観的なツールであることがわかった。
関連論文リスト
- IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Meeseeks: A Feedback-Driven, Iterative Self-Correction Benchmark evaluating LLMs' Instruction Following Capability [21.96694731466089]
フィードバック機構を組み込んだ完全に自動化された命令追従ベンチマークであるMeeseeksを紹介した。
Meeseeksは、モデル応答における誤ったコンポーネントを特定し、対応するフィードバックを正確に提供することで、モデルを自己補正に向けて反復的に導く。
我々は、マクロレベルとインスタンスレベルの両方から包括的な分析を行い、現在の最先端モデルでよく見られる多くの共通問題を明らかにした。
論文 参考訳(メタデータ) (2025-04-30T13:28:19Z) - Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - State of What Art? A Call for Multi-Prompt LLM Evaluation [28.307860675006545]
我々は650万インスタンスにわたる単発評価により得られた結果の脆さを包括的に分析した。
解析のロバスト性を改善するために,多様なプロンプトのセットを用いてLSMを評価することを提案する。
論文 参考訳(メタデータ) (2023-12-31T22:21:36Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。