論文の概要: Ranking evaluation metrics from a group-theoretic perspective
- arxiv url: http://arxiv.org/abs/2408.16009v1
- Date: Wed, 14 Aug 2024 09:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 17:51:42.761834
- Title: Ranking evaluation metrics from a group-theoretic perspective
- Title(参考訳): グループ理論から見た評価指標のランク付け
- Authors: Chiara Balestra, Andreas Mayr, Emmanuel Müller,
- Abstract要約: 一般的に使用される指標において、不整合評価や潜在的な不信の原因となる事例を示す。
分析では,不整合性評価を不信の原因とみなすべきではないことを強調し,評価指標のランク付けに光を当てた。
- 参考スコア(独自算出の注目度): 5.333192842860574
- License:
- Abstract: Confronted with the challenge of identifying the most suitable metric to validate the merits of newly proposed models, the decision-making process is anything but straightforward. Given that comparing rankings introduces its own set of formidable challenges and the likely absence of a universal metric applicable to all scenarios, the scenario does not get any better. Furthermore, metrics designed for specific contexts, such as for Recommender Systems, sometimes extend to other domains without a comprehensive grasp of their underlying mechanisms, resulting in unforeseen outcomes and potential misuses. Complicating matters further, distinct metrics may emphasize different aspects of rankings, frequently leading to seemingly contradictory comparisons of model results and hindering the trustworthiness of evaluations. We unveil these aspects in the domain of ranking evaluation metrics. Firstly, we show instances resulting in inconsistent evaluations, sources of potential mistrust in commonly used metrics; by quantifying the frequency of such disagreements, we prove that these are common in rankings. Afterward, we conceptualize rankings using the mathematical formalism of symmetric groups detaching from possible domains where the metrics have been created; through this approach, we can rigorously and formally establish essential mathematical properties for ranking evaluation metrics, essential for a deeper comprehension of the source of inconsistent evaluations. We conclude with a discussion, connecting our theoretical analysis to the practical applications, highlighting which properties are important in each domain where rankings are commonly evaluated. In conclusion, our analysis sheds light on ranking evaluation metrics, highlighting that inconsistent evaluations should not be seen as a source of mistrust but as the need to carefully choose how to evaluate our models in the future.
- Abstract(参考訳): 新しく提案されたモデルのメリットを検証するのに最も適した指標を特定するという課題に先立ち、意思決定プロセスは簡単にはなり得ない。
ランキングの比較には、厳しい課題の集合と、すべてのシナリオに適用可能な普遍的な計量の欠如が伴うため、シナリオは改善されない。
さらに、Recommender Systemsのような特定のコンテキスト向けに設計されたメトリクスは、その基盤となるメカニズムを包括的に把握することなく、時に他のドメインに拡張され、予期せぬ結果と潜在的な誤用をもたらす。
さらに問題を複雑にすると、異なる指標がランク付けの異なる側面を強調し、しばしばモデル結果の一見矛盾した比較につながり、評価の信頼性を損なう。
我々はこれらの側面をランキング評価指標の領域で明らかにする。
まず,これらの不一致の頻度を定量化することにより,これらがランキングにおいて一般的であることを示す。
その後、メトリクスが生成された可能性のある領域から切り離された対称群の数学的フォーマリズムを用いてランク付けを概念化し、この手法により、不整合評価源の深い理解に不可欠な、ランキング評価指標に不可欠な数学的性質を厳密かつ正式に確立することができる。
本稿では,理論解析と実践的応用を結びつけ,ランク付けが一般的に評価される各領域において,どの特性が重要であるかを明らかにすることで,議論を締めくくった。
結論として、我々の分析は評価指標のランキングに光を当て、一貫性のない評価を不信の源と見なすべきではなく、将来モデルを評価する方法を慎重に選択する必要があることを強調した。
関連論文リスト
- On the Evaluation Consistency of Attribution-based Explanations [42.1421504321572]
本稿では,画像領域における属性メソッドのベンチマークを行うオープンプラットフォームであるMeta-Rankを紹介する。
1) 異なる設定下での属性評価手法の評価は、異なる性能ランキングを得ることができ、2) 多数のケースで矛盾するが、同一のトレーニング軌道に沿った個別のチェックポイントにまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-07-28T11:49:06Z) - Towards Fine-Grained Citation Evaluation in Generated Text: A Comparative Analysis of Faithfulness Metrics [22.041561519672456]
大型言語モデル(LLM)は、しばしば「幻覚」として知られる、サポートされていない、または検証できないコンテンツを生成している。
本稿では,3段階のサポートレベル間での引用を識別する上で,メトリクスの有効性を評価するための比較評価フレームワークを提案する。
以上の結果から,全ての評価において一貫した指標が得られず,きめ細かな支援評価の複雑さが明らかとなった。
論文 参考訳(メタデータ) (2024-06-21T15:57:24Z) - A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice [6.091702876917282]
分類システムは数え切れないほど多くの論文で評価されている。
しかし,評価の実践がしばしば誤りであることがわかった。
多くの研究は、いわゆる「マクロ」メトリクスを使ってシステムをランク付けするが、そのようなメトリクスから何を期待するかを明確には示していない。
論文 参考訳(メタデータ) (2024-04-25T18:12:43Z) - Discordance Minimization-based Imputation Algorithms for Missing Values
in Rating Data [4.100928307172084]
複数の評価リストが組み合わされたり、考慮されたりすると、被験者はしばしば評価を欠く。
そこで本研究では,6つの実世界のデータセットを用いて,欠落した値パターンの解析を行う。
評価提供者間での総合評価不一致を最小限に抑える最適化モデルとアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-07T14:42:06Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - Properties of Group Fairness Metrics for Rankings [4.479834103607384]
フェアランキングの文脈において,既存のグループフェアネス指標の比較分析を行った。
我々は、グループフェアネスのメトリクスに対して13のプロパティのセットを設計する、公理的なアプローチをとる。
これらの指標のほとんどは、提案された性質の小さな部分集合のみを満たすことを実証する。
論文 参考訳(メタデータ) (2022-12-29T15:50:18Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - Estimation of Fair Ranking Metrics with Incomplete Judgments [70.37717864975387]
本研究では,4つの評価指標のサンプリング手法と推定手法を提案する。
ラベル付きアイテムの数が極めて少ない場合でも動作可能な頑健で偏りのない推定器を定式化する。
論文 参考訳(メタデータ) (2021-08-11T10:57:00Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Pitfalls of In-Domain Uncertainty Estimation and Ensembling in Deep
Learning [70.72363097550483]
本研究では,画像分類における領域内不確実性に着目した。
そこで本研究では,ディープアンサンブル等価スコア(DEE)を導入する。
論文 参考訳(メタデータ) (2020-02-15T23:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。