論文の概要: Metritocracy: Representative Metrics for Lite Benchmarks
- arxiv url: http://arxiv.org/abs/2506.09813v1
- Date: Wed, 11 Jun 2025 14:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.068415
- Title: Metritocracy: Representative Metrics for Lite Benchmarks
- Title(参考訳): Metritocracy: Liteベンチマークの代表的なメトリクス
- Authors: Ariel Procaccia, Benjamin Schiffer, Serena Wang, Shirley Zhang,
- Abstract要約: 評価指標のサブセットの選択のための2つの表現概念を定式化するために,社会選択理論からのアイデアを用いる。
まず、位置表現を導入し、すべての選択肢がすべての位置カットオフで十分に表現されていることを保証します。
次に、位置比例を導入し、任意の位置における小さな誤差よりも、比例的に過大あるいは過小に表現されないことを保証します。
- 参考スコア(独自算出の注目度): 3.0936354370614607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common problem in LLM evaluation is how to choose a subset of metrics from a full suite of possible metrics. Subset selection is usually done for efficiency or interpretability reasons, and the goal is often to select a ``representative'' subset of metrics. However, ``representative'' is rarely clearly defined. In this work, we use ideas from social choice theory to formalize two notions of representation for the selection of a subset of evaluation metrics. We first introduce positional representation, which guarantees every alternative is sufficiently represented at every position cutoff. We then introduce positional proportionality, which guarantees no alternative is proportionally over- or under-represented by more than a small error at any position. We prove upper and lower bounds on the smallest number of metrics needed to guarantee either of these properties in the worst case. We also study a generalized form of each property that allows for additional input on groups of metrics that must be represented. Finally, we tie theory to practice through real-world case studies on both LLM evaluation and hospital quality evaluation.
- Abstract(参考訳): LLM評価における一般的な問題は、可能なメトリクスの完全なスイートからメトリクスのサブセットを選択する方法である。
サブセットの選択は通常、効率性や解釈可能性の理由から行われ、その目標はメトリクスの `representative'' サブセットを選択することである。
しかし、'representative'が明確に定義されることはめったにない。
本研究では,社会的選択論からのアイデアを用いて,評価指標のサブセットを選択するための2つの表現概念を定式化する。
まず、位置表現を導入し、すべての選択肢がすべての位置カットオフで十分に表現されていることを保証します。
次に、位置比例を導入し、任意の位置における小さな誤差よりも、比例的に過大あるいは過小に表現されないことを保証します。
最悪の場合、これらの特性のいずれかを保証するのに必要な最小限のメトリクスの上限と下限を証明します。
また、各性質の一般化形式について研究し、表わさなければならないメトリクスの群に対する追加入力を可能にする。
最後に, LLM評価と病院の質評価の両面において実世界のケーススタディを通じて, 理論を実践に結び付ける。
関連論文リスト
- Ethical AI on the Waitlist: Group Fairness Evaluation of LLM-Aided Organ Allocation [19.66750942418172]
オルガンアロケーションをケーススタディとして,(1)選択1と(2)ランクオールの2つのタスクを紹介した。
ランクオールでは、LLMは腎臓の全ての候補をランク付けし、実際の割り当てプロセスを反映している。
従来の公正度指標はランク付けを考慮しないため、バイアスを捉えるためにボルダスコアの新たな応用を提案する。
論文 参考訳(メタデータ) (2025-03-29T04:36:25Z) - Multi-Group Proportional Representation in Retrieval [46.00781543425424]
交差するグループ間の表現を測定する新しい指標であるMPR(Multi-Group Proportional Representation)を導入する。
MPRは、リッチ関数クラスによって指定された複数の交叉群にまたがるより比例的な表現をもたらす。
論文 参考訳(メタデータ) (2024-07-11T14:59:17Z) - A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice [6.091702876917282]
分類システムは数え切れないほど多くの論文で評価されている。
しかし,評価の実践がしばしば誤りであることがわかった。
多くの研究は、いわゆる「マクロ」メトリクスを使ってシステムをランク付けするが、そのようなメトリクスから何を期待するかを明確には示していない。
論文 参考訳(メタデータ) (2024-04-25T18:12:43Z) - Revisiting Evaluation Metrics for Semantic Segmentation: Optimization
and Evaluation of Fine-grained Intersection over Union [113.20223082664681]
そこで本研究では,mIoUsの微細化と,それに対応する最悪の指標を提案する。
これらのきめ細かいメトリクスは、大きなオブジェクトに対するバイアスの低減、よりリッチな統計情報、モデルとデータセット監査に関する貴重な洞察を提供する。
ベンチマークでは,1つの測定値に基づかないことの必要性を強調し,微細なmIoUsが大きな物体への偏りを減少させることを確認した。
論文 参考訳(メタデータ) (2023-10-30T03:45:15Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Evaluating Metrics for Bias in Word Embeddings [44.14639209617701]
我々は、過去の研究の考えに基づいてバイアス定義を定式化し、バイアスメトリクスの条件を導出する。
そこで我々は,既存のメトリクスの欠点に対処する新しい計量であるhetを提案し,その振る舞いを数学的に証明する。
論文 参考訳(メタデータ) (2021-11-15T16:07:15Z) - Asymmetric Distribution Measure for Few-shot Learning [82.91276814477126]
メトリクスベースの少数ショット画像分類は、クエリ画像とサポートクラスの関係を測定することを目的としている。
本稿では,非対称分布測定(ADM)ネットワークを提案する。
5ドルの$-wayの$-shotタスクで最先端のメソッドよりも3.02%の$と1.56%の$を達成しています。
論文 参考訳(メタデータ) (2020-02-01T06:41:52Z) - AMR Similarity Metrics from Principles [21.915057426589748]
我々は、AMRのような意味表現と比較する指標を、研究者が原則的に評価できる基準を確立する。
偏差をわずかに意味することはより好意的であり、確立された全ての基準を満たすことを目標とする新しい計量 S$2$match を提案する。
論文 参考訳(メタデータ) (2020-01-29T16:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。