論文の概要: Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions
- arxiv url: http://arxiv.org/abs/2006.11909v2
- Date: Thu, 19 Nov 2020 02:42:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 12:07:26.624751
- Title: Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions
- Title(参考訳): ランク付けされた選好データの2サンプルテストとモデリング仮定の役割
- Authors: Charvi Rastogi, Sivaraman Balakrishnan, Nihar B. Shah, Aarti Singh
- Abstract要約: 本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
- 参考スコア(独自算出の注目度): 57.77347280992548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A number of applications require two-sample testing on ranked preference
data. For instance, in crowdsourcing, there is a long-standing question of
whether pairwise comparison data provided by people is distributed similar to
ratings-converted-to-comparisons. Other examples include sports data analysis
and peer grading. In this paper, we design two-sample tests for pairwise
comparison data and ranking data. For our two-sample test for pairwise
comparison data, we establish an upper bound on the sample complexity required
to correctly distinguish between the distributions of the two sets of samples.
Our test requires essentially no assumptions on the distributions. We then
prove complementary lower bounds showing that our results are tight (in the
minimax sense) up to constant factors. We investigate the role of modeling
assumptions by proving lower bounds for a range of pairwise comparison models
(WST, MST,SST, parameter-based such as BTL and Thurstone). We also provide
testing algorithms and associated sample complexity bounds for the problem of
two-sample testing with partial (or total) ranking data.Furthermore, we
empirically evaluate our results via extensive simulations as well as two
real-world datasets consisting of pairwise comparisons. By applying our
two-sample test on real-world pairwise comparison data, we conclude that
ratings and rankings provided by people are indeed distributed differently. On
the other hand, our test recognizes no significant difference in the relative
performance of European football teams across two seasons. Finally, we apply
our two-sample test on a real-world partial and total ranking dataset and find
a statistically significant difference in Sushi preferences across demographic
divisions based on gender, age and region of residence.
- Abstract(参考訳): 多くのアプリケーションはランク付けされた選好データに対して2サンプルテストを必要とする。
例えば、クラウドソーシングでは、人が提供した対数比較データがレーティング変換対比較に類似しているかどうかという長年の疑問がある。
他の例としては、スポーツデータ分析やピアグレーディングがある。
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
ペアワイズ比較データのための2つのサンプルテストでは、2つのサンプルセットの分布を正しく区別するために必要となるサンプル複雑性の上界を確立する。
我々のテストは本質的に分布の仮定を必要としない。
そして、結果が(minimaxの意味で)定数まで密接であることを示す相補的な下界を証明します。
ペアワイズ比較モデル(wst, mst, sst, btl や thurstone などパラメータベース)の下限を証明し, 仮定をモデル化する役割について検討した。
また,部分的(あるいは全体的)ランキングデータを用いた2つのサンプルテストの問題に対して,テストアルゴリズムと関連するサンプル複雑性境界を提供する。
実世界の対数比較データに2つのサンプルテストを適用することで、評価とランキングが実際には異なると結論づける。
一方,テストでは2シーズン間の欧州サッカーチームの相対成績に有意な差は認められなかった。
最後に、実世界の部分的および総合的なランキングデータセットに2サンプルテストを適用し、性別、年齢、居住地域に基づく人口統計学的に有意な差を見出した。
関連論文リスト
- Model Equality Testing: Which Model Is This API Serving? [59.005869726179455]
2サンプルテスト問題であるモデル品質テストのような歪みの検出を形式化する。
単純な文字列カーネル上に構築されたテストは、歪みの範囲に対して77.4%の中央値を達成する。
次に、このテストを4つのLlamaモデルの商用推論APIに適用し、31のエンドポイントのうち11がMetaがリリースしたリファレンスウェイトとは異なる分布を提供することがわかった。
論文 参考訳(メタデータ) (2024-10-26T18:34:53Z) - A framework for paired-sample hypothesis testing for high-dimensional
data [7.400168551191579]
我々は、各一対のインスタンスを接続するラインセグメントの双分割超平面によって定義される決定規則によって、スコアリング関数が生成できるという考えを提唱した。
まず、各一対の双分極超平面とホッジス・リーマン推定器から導出される集約規則を推定する。
論文 参考訳(メタデータ) (2023-09-28T09:17:11Z) - Detecting Adversarial Data by Probing Multiple Perturbations Using
Expected Perturbation Score [62.54911162109439]
逆方向検出は、自然分布と逆方向分布の差に基づいて、与えられたサンプルが逆方向であるかどうかを判定することを目的としている。
本研究では,様々な摂動後の標本の予測スコアであるEPS(pre expected perturbation score)を提案する。
EPSに基づく最大平均誤差(MMD)を,試験試料と自然試料との差を測定する指標として開発する。
論文 参考訳(メタデータ) (2023-05-25T13:14:58Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Active Sequential Two-Sample Testing [18.99517340397671]
サンプル測定が安価に利用できる新しいシナリオでは,この2サンプルテストの問題を考慮する。
我々は,emphactiveNIST-sampleテストフレームワークを考案し,逐次クエリだけでなく,emphactivelyクエリも考案した。
実際に、我々はフレームワークのインスタンス化を導入し、いくつかの実験を用いて評価する。
論文 参考訳(メタデータ) (2023-01-30T02:23:49Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Robust Fairness-aware Learning Under Sample Selection Bias [17.09665420515772]
サンプル選択バイアス下での頑健で公正な学習のための枠組みを提案する。
テストデータが利用可能で、利用できない場合に、サンプル選択バイアスを処理する2つのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-05-24T23:23:36Z) - Significance tests of feature relevance for a blackbox learner [6.72450543613463]
ブラックボックス学習者の特徴関連性に関する2つの一貫した試験を導出する。
第1は、推論サンプルの摂動による損失差を評価する。
2つ目は推論サンプルを2つに分割するが、データの摂動は必要ない。
論文 参考訳(メタデータ) (2021-03-02T00:59:19Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Preference Modeling with Context-Dependent Salient Features [12.403492796441434]
本稿では,各項目の特徴について,ノイズの多いペアワイド比較から,項目集合のランキングを推定する問題を考察する。
私たちのキーとなる観察は、他の項目から分離して比較した2つの項目は、機能の健全なサブセットのみに基づいて比較できるということです。
論文 参考訳(メタデータ) (2020-02-22T04:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。