論文の概要: Spot Check Equivalence: an Interpretable Metric for Information
Elicitation Mechanisms
- arxiv url: http://arxiv.org/abs/2402.13567v1
- Date: Wed, 21 Feb 2024 06:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:44:59.161667
- Title: Spot Check Equivalence: an Interpretable Metric for Information
Elicitation Mechanisms
- Title(参考訳): スポットチェック等価性:情報誘発機構の解釈可能な指標
- Authors: Shengwei Xu, Yichi Zhang, Paul Resnick, Grant Schoenebeck
- Abstract要約: スポットチェックとピア予測という2つの主要なパラダイムは、人間のラベルから高品質なデータを評価し、インセンティブを与えるメカニズムの設計を可能にする。
これらのメトリクスのうち2つは、実際には特定のコンテキスト内で同じであり、3つ目の違いを説明します。
本稿では,各文脈におけるスポットチェック等価性を計算するための2つの手法を提案する。
- 参考スコア(独自算出の注目度): 15.542532119818794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Because high-quality data is like oxygen for AI systems, effectively
eliciting information from crowdsourcing workers has become a first-order
problem for developing high-performance machine learning algorithms. Two
prevalent paradigms, spot-checking and peer prediction, enable the design of
mechanisms to evaluate and incentivize high-quality data from human labelers.
So far, at least three metrics have been proposed to compare the performances
of these techniques [33, 8, 3]. However, different metrics lead to divergent
and even contradictory results in various contexts. In this paper, we harmonize
these divergent stories, showing that two of these metrics are actually the
same within certain contexts and explain the divergence of the third. Moreover,
we unify these different contexts by introducing \textit{Spot Check
Equivalence}, which offers an interpretable metric for the effectiveness of a
peer prediction mechanism. Finally, we present two approaches to compute spot
check equivalence in various contexts, where simulation results verify the
effectiveness of our proposed metric.
- Abstract(参考訳): 高品質なデータはAIシステムの酸素に似ているため、クラウドソーシングワーカーからの情報を効果的に引き出すことは、高性能な機械学習アルゴリズムを開発する上での第一次問題となっている。
スポットチェックとピア予測という2つの主要なパラダイムは、人間のラベルから高品質なデータを評価し、インセンティブを与えるメカニズムの設計を可能にする。
これまでにこれらの技術の性能を比較するために,少なくとも3つの指標が提案されている[33, 8, 3]。
しかし、異なるメトリクスは様々な文脈で分岐し、矛盾する結果をもたらす。
本稿では,これらの相違した物語を調和させ,これらの指標のうち2つが実際にある文脈で同じであることを示す。
さらに,ピア予測機構の有効性を解釈可能な指標である \textit{spot check equivalence} を導入することで,これらの異なるコンテキストを統一する。
最後に,様々な文脈におけるスポットチェック等価性を計算するための2つの手法を提案し,提案手法の有効性をシミュレーションにより検証する。
関連論文リスト
- Rethinking Distance Metrics for Counterfactual Explainability [53.436414009687]
本研究では, 反事実を参照領域から独立して引き出すのではなく, 基礎となるデータ分布からの参照と共同してサンプリングする, 反事実生成手法のフレーミングについて検討する。
我々は、幅広い設定に適用可能な、反ファクト的な類似性のために調整された距離メートル法を導出する。
論文 参考訳(メタデータ) (2024-10-18T15:06:50Z) - Counterfactual Explanation via Search in Gaussian Mixture Distributed
Latent Space [19.312306559210125]
対実説明(CE)は2つの問題に対処するアルゴリズム・リコースにおいて重要なツールである。
簡単に理解しやすい説明を提供することによって、AIシステムに対するユーザのインタラクションを導くことは、AIシステムの信頼できる採用と長期的な受け入れに不可欠である。
本稿では,まずオートエンコーダの潜伏空間をガウス分布の混合として形成することにより,事前学習されたバイナリ分類器のCEを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-07-25T10:21:26Z) - Exploiting Observation Bias to Improve Matrix Completion [16.57405742112833]
本稿では,行列補完の変種について考察する。
目標は、バイアスと関心の結果の間の共有情報を利用して予測を改善することである。
この2段階のアルゴリズムでは,従来の行列補完法に比べて平均2乗誤差が30倍小さいことが判明した。
論文 参考訳(メタデータ) (2023-06-07T20:48:35Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Refining Self-Supervised Learning in Imaging: Beyond Linear Metric [25.96406219707398]
本稿では,ジャカード類似度尺度を測度に基づく計量として活用する,新しい統計的視点を紹介する。
具体的には、提案した計量は、いわゆる潜在表現から得られた2つの適応射影間の依存度として解釈できる。
我々の知る限りでは、この事実上非線形に融合した情報は、Jaccardの類似性に埋め込まれており、将来有望な結果を伴う自己超越学習に新しいものである。
論文 参考訳(メタデータ) (2022-02-25T19:25:05Z) - Toward Learning Human-aligned Cross-domain Robust Models by Countering
Misaligned Features [17.57706440574503]
機械学習は、i.dデータよりも顕著な予測精度を示しているが、他の分布のデータでテストすると、その精度は低下することが多い。
本稿では、この精度低下の背景にある理由が、データアノテータの考え方とよく一致しない特徴に対するモデルの依存であることを前提として、この問題を別の視点で考察することを目的とする。
本稿では,従来の一般化誤差をラベルとどのように関連付けられているかという知識を活かして,この設定のための新しい一般化誤差に拡張する。
論文 参考訳(メタデータ) (2021-11-05T22:14:41Z) - Systematic Assessment of Hyperdimensional Computing for Epileptic
Seizure Detection [4.249341912358848]
この研究は、てんかん発作の検出のためのHDコンピューティングフレームワークの体系的な評価を行うことである。
先程実装した2つの特徴と, てんかん発作検出におけるHDコンピューティングの新しいアプローチを検証した。
論文 参考訳(メタデータ) (2021-05-03T15:11:08Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。