論文の概要: Beyond Arrow: From Impossibility to Possibilities in Multi-Criteria Benchmarking
- arxiv url: http://arxiv.org/abs/2602.07593v1
- Date: Sat, 07 Feb 2026 15:47:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.712366
- Title: Beyond Arrow: From Impossibility to Possibilities in Multi-Criteria Benchmarking
- Title(参考訳): Beyond Arrow: マルチクオリティベンチマークにおける可能性から可能性へ
- Authors: Polina Gordienko, Christoph Jansen, Julian Rodemann, Georg Schollmeyer,
- Abstract要約: 我々は、各指標が各データセットのモデルよりも優先順位を誘導する社会的選択問題を定式化する。
我々は、単一話者、グループ分離可能、および距離制限された選好において、ベンチマーク演算子は、良好なランク付けを構築することができることを証明した。
HELM MMLUのような近代的なベンチマークスイートを実証的に検討し、どのベンチマーク問題でどの構造条件が満たされているかを検証する。
- 参考スコア(独自算出の注目度): 8.399688944263843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern benchmarks such as HELM MMLU account for multiple metrics like accuracy, robustness and efficiency. When trying to turn these metrics into a single ranking, natural aggregation procedures can become incoherent or unstable to changes in the model set. We formalize this aggregation as a social choice problem where each metric induces a preference ranking over models on each dataset, and a benchmark operator aggregates these votes across metrics. While prior work has focused on Arrow's impossibility result, we argue that the impossibility often originates from pathological examples and identify sufficient conditions under which these disappear, and meaningful multi-criteria benchmarking becomes possible. In particular, we deal with three restrictions on the combinations of rankings and prove that on single-peaked, group-separable and distance-restricted preferences, the benchmark operator allows for the construction of well-behaved rankings of the involved models. Empirically, we investigate several modern benchmark suites like HELM MMLU and verify which structural conditions are fulfilled on which benchmark problems.
- Abstract(参考訳): HELM MMLUのような最新のベンチマークは、正確性、堅牢性、効率性といった複数の指標を考慮に入れている。
これらのメトリクスを単一のランキングにしようとすると、モデルセットの変更に対して自然な集約手順が不整合あるいは不安定になる可能性がある。
我々は、この集計を、各指標が各データセットのモデルよりも優先順位を誘導する社会的選択問題として定式化し、ベンチマーク演算子がこれらの投票をメトリクス間で集約する。
先行研究はアローの不合理性の結果に焦点を合わせてきたが、この不合理性はしばしば病理的な例から発生し、これらが消失する十分な条件を特定し、有意義な多重基準ベンチマークが可能であると論じている。
特に、ランキングの組み合わせに関する3つの制限に対処し、単一話者、グループ分離可能、および距離制限された選好において、ベンチマーク演算子は関連するモデルの良好なランキングを構築することができることを証明した。
HELM MMLUのような近代的なベンチマークスイートを実証的に検討し、どのベンチマーク問題でどの構造条件が満たされているかを検証する。
関連論文リスト
- Benchmark^2: Systematic Evaluation of LLM Benchmarks [66.2731798872668]
3つの相補的なメトリクスからなる包括的なフレームワークであるBenchmark2を提案する。
数学、推論、知識ドメインにまたがる15のベンチマークで実験を行います。
本分析により,既存のベンチマーク間での有意な品質変化が明らかとなり,選択的なベンチマーク構築が同等な評価性能を達成できることが示されている。
論文 参考訳(メタデータ) (2026-01-07T14:59:03Z) - Structured Prompting Enables More Robust Evaluation of Language Models [38.53918044830268]
DSPy+HELMフレームワークを提案する。
構造化されたプロンプトがなければ、HELMはLM性能(平均4%)を過小評価し、性能評価はベンチマークによって異なることがわかった。
これは、構造化されたプロンプトを確立された評価フレームワークに体系的に統合する最初のベンチマーク研究である。
論文 参考訳(メタデータ) (2025-11-25T20:37:59Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Benchmarking and Revisiting Code Generation Assessment: A Mutation-Based Approach [20.27214998822657]
Code Large Language Models (CLLM) は、プログラム合成において優れた性能を示した。
既存のベンチマークは通常、各問題の評価のために1つの入力プロンプトのみを提供する。
10の突然変異戦略を提案し、コード生成への影響を評価するために3つの新しい指標を導入する。
論文 参考訳(メタデータ) (2025-05-11T07:14:30Z) - ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities [30.123976500620834]
従来の固定テストセットは、ファンデーションモデルのオープンな機能を評価するのに不足しています。
ONEBenchは、個々の評価データセットを統一し、拡張し続けるサンプルプールに統合する新しいテストパラダイムである。
ONEBenchは、テストセットにまたがってサンプルを集約することにより、オリジナルのテストセットでカバーされたもの以上の多様な機能の評価を可能にする。
論文 参考訳(メタデータ) (2024-12-09T18:37:14Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - UniTTA: Unified Benchmark and Versatile Framework Towards Realistic Test-Time Adaptation [66.05528698010697]
Test-Time Adaptationは、テスト中にトレーニング済みのモデルを対象のドメインに適応させることを目的としている。
研究者は様々な挑戦シナリオを特定し、これらの課題に対処するための様々な方法を開発した。
本稿では,包括的かつ広く適用可能な統一テスト時間適応ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:04:53Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - Towards Practical Few-Shot Query Sets: Transductive Minimum Description
Length Inference [0.0]
そこで本研究では,PrimAl Dual Minimum Description LEngth (PADDLE) の定式化について述べる。
制約のあるMDLライクな目的は、いくつかのタスクのデータに適合する有効なクラスのみを保ちながら、起こりうる多数のクラス間の競争を促進する。
論文 参考訳(メタデータ) (2022-10-26T08:06:57Z) - A Survey of Parameters Associated with the Quality of Benchmarks in NLP [24.6240575061124]
最近の研究では、モデルがいくつかの人気のあるベンチマークに対して、望ましいタスクを本当に学習することなく、刺激的なバイアスに過度に適合していることが示されている。
これらの問題に対する潜在的な解決策 - 量的定量化品質 - は、まだ未検討のままである。
ベンチマークのバイアスにつながる様々な相互作用を表現できる特定の言語特性を特定することで、メトリックへの第一歩を踏み出します。
論文 参考訳(メタデータ) (2022-10-14T06:44:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。