論文の概要: Benchmark Profiling: Mechanistic Diagnosis of LLM Benchmarks
- arxiv url: http://arxiv.org/abs/2510.01232v1
- Date: Tue, 23 Sep 2025 15:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.733353
- Title: Benchmark Profiling: Mechanistic Diagnosis of LLM Benchmarks
- Title(参考訳): ベンチマークプロファイリング: LLMベンチマークの力学診断
- Authors: Dongjun Kim, Gyuho Shim, Yongchan Chun, Minhyuk Kim, Chanjun Park, Heuiseok Lim,
- Abstract要約: ベンチマークプロファイリングは、ベンチマークのパフォーマンスを10の認知的基盤を持つ能力に分解する。
パフォーマンス向上がユーザ認識能力に必ずしも変換されない理由を説明する。
- 参考スコア(独自算出の注目度): 34.09939383415074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models are commonly judged by their scores on standard benchmarks, yet such scores often overstate real capability since they mask the mix of skills a task actually demands. For example, ARC is assumed to test reasoning, while HellaSwag is designed to evaluate commonsense. However, we lack a systematic way to verify if these benchmarks actually measure these labels. We introduce Benchmark Profiling, a diagnostic framework that decomposes benchmark performance into ten cognitively grounded abilities. The method combines gradient-based importance scoring with targeted parameter ablation to compute an Ability Impact Score (AIS) that quantifies how much each ability contributes to a model's success on a given benchmark. Profiling three instruction-tuned models across ten widely used benchmarks yields four key findings: (i) most benchmarks draw on several abilities rather than one, (ii) datasets with similar labels rely on distinct ability mixtures, (iii) code-generation benchmarks reward broad, multi-skill improvement and thus show only modest gains from narrow domain-specific fine-tuning, and (iv) abilities irrelevant to the task could negatively affect performance. Benchmark Profiling therefore explains why performance gains do not always translate into user-perceived competence and offers a transparent tool for benchmark audit and model interpretability.
- Abstract(参考訳): 大きな言語モデルは通常、標準ベンチマークのスコアから判断されるが、そのようなスコアは、タスクが実際に要求するスキルの混在を隠蔽するため、実際の能力を誇張することが多い。
例えば、ARCは推論をテストすると仮定され、HellaSwagは常識を評価するように設計されている。
しかし、これらのベンチマークが実際にこれらのラベルを測定するかどうかを検証するための体系的な方法がない。
ベンチマークパフォーマンスを10の認知的基盤能力に分解する診断フレームワークであるBenchmark Profilingを紹介する。
この方法は、勾配に基づく重要度スコアと目標パラメータのアブレーションを組み合わせて、与えられたベンチマークで各能力がモデルの成功にどの程度貢献するかを定量化する能力インパクトスコア(AIS)を計算する。
10の広く使用されているベンチマークで3つの命令調整されたモデルをプロファイリングすると、4つの重要な結果が得られます。
(i)ほとんどのベンチマークは1つではなく複数の能力に基づいています。
(ii)類似のラベルを持つデータセットは、異なる能力の混合に依存する。
三 コードジェネレーションベンチマークは、広範かつマルチスキルの向上に報いるため、狭義のドメイン特化微調整によるわずかな利益しか示さない。
(4)タスクに関係のない能力は、パフォーマンスに悪影響を及ぼす可能性がある。
ベンチマークプロファイリングは、パフォーマンス向上が必ずしもユーザ認識能力に変換されない理由を説明し、ベンチマーク監査とモデルの解釈可能性のための透過的なツールを提供する。
関連論文リスト
- IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - When AI Benchmarks Plateau: A Systematic Study of Benchmark Saturation [80.66788281323414]
主要モデル開発者のテクニカルレポートから選択した60のLarge Language Model (LLM)ベンチマークのベンチマーク飽和を分析した。
分析の結果、ベンチマークのほぼ半数が飽和しており、ベンチマークの年齢とともに上昇していることがわかった。
専門家によるベンチマークは、クラウドソースのベンチマークよりも飽和に抵抗する。
論文 参考訳(メタデータ) (2026-02-18T16:51:37Z) - Benchmark^2: Systematic Evaluation of LLM Benchmarks [66.2731798872668]
3つの相補的なメトリクスからなる包括的なフレームワークであるBenchmark2を提案する。
数学、推論、知識ドメインにまたがる15のベンチマークで実験を行います。
本分析により,既存のベンチマーク間での有意な品質変化が明らかとなり,選択的なベンチマーク構築が同等な評価性能を達成できることが示されている。
論文 参考訳(メタデータ) (2026-01-07T14:59:03Z) - Uncovering Competency Gaps in Large Language Models and Their Benchmarks [11.572508874955659]
本稿では,スパースオートエンコーダ(SAE)を用いて,両方のギャップを自動的に発見する手法を提案する。
我々は、モデルが、サイコファンティックな振る舞いとは対照的な概念に一貫して劣っていることを発見した。
提案手法は,ベンチマークスコアの概念レベルの分解を可能にするため,評価のための表現的アプローチを提供する。
論文 参考訳(メタデータ) (2025-12-06T17:39:47Z) - Fantastic Bugs and Where to Find Them in AI Benchmarks [28.604919035475188]
本稿では, 応答パターンの統計的解析を利用して, 潜在的に無効な質問にフラグを付ける手法を提案する。
我々のアプローチは、平均スコアがモデル性能を十分に要約する、AI評価で一般的に使用されるコア仮定に基づいています。
提案手法は,9つの広く使用されているベンチマークにおいて,最大84%の精度で問題のある問題を特定するために専門家のレビューをガイドする。
論文 参考訳(メタデータ) (2025-11-20T22:49:21Z) - Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts [49.99400612296149]
強力な視覚的理解なしに、モデルが多くのベンチマークを達成できることがわかりました。
これは視覚的な入力を意図した視覚中心のベンチマークでは特に問題となる。
ベンチマーク設計には診断原則を採用しており、もしベンチマークをゲーム化できれば、それをゲーム化します。
論文 参考訳(メタデータ) (2025-11-06T18:43:21Z) - Fluid Language Model Benchmarking [126.92394365620525]
我々は,複数の次元にわたるLMベンチマークを進展させる新しい評価手法であるFluid Benchmarkingを紹介する。
サイコメトリックスにインスパイアされたFluid Benchmarkingは、ベンチマーク項目の相対値がLMの能力レベルに依存するという洞察に基づいている。
効率性,妥当性,分散性,飽和性の4つの次元を検証した結果,Fluid Benchmarkingがすべてにおいて優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-09-14T05:49:42Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - Improving LLM Leaderboards with Psychometrical Methodology [0.0]
大規模言語モデル(LLM)の急速な開発は、その性能を評価するためにベンチマークの作成を必要としている。
これらのベンチマークは、人間のテストや調査に似ており、これらのシステムの認知行動における創発性を測定するために設計された質問で構成されている。
しかし、社会科学でよく定義された特徴や能力とは異なり、これらのベンチマークによって測定される特性は曖昧で厳密に定義されていないことが多い。
論文 参考訳(メタデータ) (2025-01-27T21:21:46Z) - Do These LLM Benchmarks Agree? Fixing Benchmark Evaluation with BenchBench [15.565644819269803]
過度に見落とされた方法論的選択がベンチマークコンセンサステスト(BAT)の結果にどのように影響するかを示す。
我々は、BAT用のピソンパッケージであるBenchBenchを紹介し、ベンチマークを仲間を使って評価するためのメタベンチマークであるBenchBench- Leaderboardをリリースする。
論文 参考訳(メタデータ) (2024-07-18T17:00:23Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - ECBD: Evidence-Centered Benchmark Design for NLP [95.50252564938417]
ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。
各モジュールは、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。
分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T00:59:55Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z) - Interpretable Meta-Measure for Model Performance [4.91155110560629]
Elo-based Predictive Power (EPP) と呼ばれる新しいメタスコアアセスメントを導入する。
EPPは、他のパフォーマンス指標の上に構築されており、モデルの解釈可能な比較を可能にする。
本研究では,EPPの数学的特性を証明し,30の分類データセット上の大規模ベンチマークと実世界のビジュアルデータに対するベンチマークを実証的に支援する。
論文 参考訳(メタデータ) (2020-06-02T14:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。