論文の概要: Recall, Robustness, and Lexicographic Evaluation
- arxiv url: http://arxiv.org/abs/2302.11370v6
- Date: Sat, 30 Nov 2024 21:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 16:54:14.278710
- Title: Recall, Robustness, and Lexicographic Evaluation
- Title(参考訳): リコール・ロバストネス・レキソグラフィー評価
- Authors: Fernando Diaz, Michael D. Ekstrand, Bhaskar Mitra,
- Abstract要約: 正式な評価モチベーションのないリコールの適用は、リコールを曖昧または不適切な措置として批判するに至った。
本研究は,リコール,ロバスト性,レキソグラフィー評価の3つのテテットから成っている。
- 参考スコア(独自算出の注目度): 49.13362412522523
- License:
- Abstract: Although originally developed to evaluate sets of items, recall is often used to evaluate rankings of items, including those produced by recommender, retrieval, and other machine learning systems. The application of recall without a formal evaluative motivation has led to criticism of recall as a vague or inappropriate measure. In light of this debate, we reflect on the measurement of recall in rankings from a formal perspective. Our analysis is composed of three tenets: recall, robustness, and lexicographic evaluation. First, we formally define `recall-orientation' as the sensitivity of a metric to a user interested in finding every relevant item. Second, we analyze recall-orientation from the perspective of robustness with respect to possible content consumers and providers, connecting recall to recent conversations about fair ranking. Finally, we extend this conceptual and theoretical treatment of recall by developing a practical preference-based evaluation method based on lexicographic comparison. Through extensive empirical analysis across three recommendation tasks and 17 information retrieval tasks, we establish that our new evaluation method, lexirecall, has convergent validity (i.e., it is correlated with existing recall metrics) and exhibits substantially higher sensitivity in terms of discriminative power and stability in the presence of missing labels. Our conceptual, theoretical, and empirical analysis substantially deepens our understanding of recall and motivates its adoption through connections to robustness and fairness.
- Abstract(参考訳): もともとはアイテムのセットを評価するために開発されたが、リコールはリコメンデーター、検索、その他の機械学習システムによって生成されるアイテムのランキングを評価するためにしばしば使用される。
正式な評価モチベーションのないリコールの適用は、リコールを曖昧または不適切な措置として批判するに至った。
この議論を踏まえて、フォーマルな観点からランク付けにおけるリコールの測定を考察する。
本研究は,リコール,ロバスト性,レキソグラフィー評価の3つのテテットから成っている。
まず,「リコール指向」を,関連する項目の検索に関心のあるユーザに対するメトリックの感度として定義する。
第2に,コンテンツコンシューマやプロバイダに対するロバスト性の観点から,リコール指向を解析し,近年の公正なランキングに関する会話に接続する。
最後に,レキシコグラフィー比較に基づく実践的嗜好に基づく評価手法を開発することにより,この概念的および理論的リコール処理を拡張した。
3つの推奨タスクと17の情報検索タスクにわたる広範な経験的分析により、新しい評価手法であるレキシレコールが収束妥当性(つまり既存のリコール指標と相関している)を示し、欠落ラベルの存在下で識別力と安定性の点でかなり高い感度を示す。
我々の概念的、理論的、実証的な分析は、リコールの理解を大幅に深め、堅牢性と公正性へのつながりを通じてその採用を動機付けます。
関連論文リスト
- A Critical Look at Meta-evaluating Summarisation Evaluation Metrics [11.541368732416506]
私たちは、より堅牢な評価指標の開発を可能にする、より多様なベンチマークを構築するのに時間がかかっていると論じています。
我々は、生成された要約のコミュニケーション目標を考慮に入れた、ユーザ中心の品質次元に焦点を当てた研究を求めている。
論文 参考訳(メタデータ) (2024-09-29T01:30:13Z) - MADial-Bench: Towards Real-world Evaluation of Memory-Augmented Dialogue Generation [15.64077949677469]
メモリ拡張対話システム(MADS)の有効性を評価するための新しいメモリ拡張対話ベンチマーク(MADail-Bench)を提案する。
このベンチマークは2つのタスクを別々に評価する: メモリ検索とメモリ認識は、パッシブとプロアクティブの両方のメモリリコールデータを組み込んだものである。
このベンチマークにおける最先端の埋め込みモデルと大規模言語モデルの結果は、さらなる進歩の可能性を示している。
論文 参考訳(メタデータ) (2024-09-23T17:38:41Z) - Ranking evaluation metrics from a group-theoretic perspective [5.333192842860574]
一般的に使用される指標において、不整合評価や潜在的な不信の原因となる事例を示す。
分析では,不整合性評価を不信の原因とみなすべきではないことを強調し,評価指標のランク付けに光を当てた。
論文 参考訳(メタデータ) (2024-08-14T09:06:58Z) - Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy [66.95501113584541]
ユーティリティとトピック関連性は、情報検索において重要な手段である。
本稿では,リトリーバル拡張生成のサイクルの各ステップを促進させるために,反復的ユーティリティである JudgmEnt fraMework を提案する。
論文 参考訳(メタデータ) (2024-06-17T07:52:42Z) - Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - REV: Information-Theoretic Evaluation of Free-Text Rationales [83.24985872655738]
理想的な計量は、入力やラベルに提供されない理性において一意に提供される新しい情報に焦点を当てるべきである、と我々は主張する。
本稿では,REV (Rationale Evaluation with Conditional V-information) と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2022-10-10T19:31:30Z) - A Training-free and Reference-free Summarization Evaluation Metric via
Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。
我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。
提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-06-26T05:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。