Fugu-MT 論文翻訳(概要): Towards Reliable Testing for Multiple Information Retrieval System Comparisons

論文の概要: Towards Reliable Testing for Multiple Information Retrieval System Comparisons

arxiv url: http://arxiv.org/abs/2501.03930v1
Date: Tue, 07 Jan 2025 16:48:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-08 16:58:03.10152
Title: Towards Reliable Testing for Multiple Information Retrieval System Comparisons
Title（参考訳）: 複数情報検索システム比較のための信頼性テストに向けて
Authors: David Otero, Javier Parapar, Álvaro Barreiro,
Abstract要約: 我々は、シミュレーションおよび実TRECデータを用いて、複数の比較手順の信頼性を評価するために、新しいアプローチを用いる。実験により、ウィルコクソンとベンジャミン・ホックバーグの補正は、典型的なサンプルサイズの重要度に応じてタイプIの誤差率をもたらすことが示された。
参考スコア（独自算出の注目度）: 2.9180406633632523
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Null Hypothesis Significance Testing is the \textit{de facto} tool for assessing effectiveness differences between Information Retrieval systems. Researchers use statistical tests to check whether those differences will generalise to online settings or are just due to the samples observed in the laboratory. Much work has been devoted to studying which test is the most reliable when comparing a pair of systems, but most of the IR real-world experiments involve more than two. In the multiple comparisons scenario, testing several systems simultaneously may inflate the errors committed by the tests. In this paper, we use a new approach to assess the reliability of multiple comparison procedures using simulated and real TREC data. Experiments show that Wilcoxon plus the Benjamini-Hochberg correction yields Type I error rates according to the significance level for typical sample sizes while being the best test in terms of statistical power.
Abstract（参考訳）: Null hypothesis Significance Testingは、情報検索システム間での有効性の差異を評価するための、textit{de facto}ツールである。研究者たちは統計テストを使って、これらの違いがオンライン設定に一般化されるかどうかを確認します。二つのシステムを比較するとき、どのテストが最も信頼性が高いかを研究するために多くの研究がなされてきたが、赤外線の実世界の実験のほとんどは2つ以上のものを含んでいる。複数の比較シナリオでは、複数のシステムを同時にテストすることで、テストが犯したエラーが増大する可能性がある。本稿では,シミュレーションおよび実TRECデータを用いて,複数の比較手順の信頼性を評価する手法を提案する。実験により、ウィルコクソンとベンジャミン・ホックバーグの補正は、統計力の点で最良の試験でありながら、典型的なサンプルサイズの重要度に応じてタイプIの誤差率をもたらすことが示された。

関連論文リスト

Is Your Imitation Learning Policy Better than Mine? Policy Comparison with Near-Optimal Stopping [17.222170618610594]
本稿では,小サンプルサイズ体制における2つの政策を厳密に比較するための新しい統計枠組みを提案する。実験では、ほぼ最適に停止し、研究者が評価を中止し、最小限の試行で決定を下せることを示す。
論文参考訳（メタデータ） (2025-03-14T00:21:48Z)
Discriminative calibration: Check Bayesian computation from simulations and flexible classifier [23.91355980551754]
我々は,データからテスト統計を学習するフレキシブルな分類手法により,限界ランクテストを置き換えることを提案する。ニューラルネットワークと統計的に着想を得た特徴を用いた自動実装について説明するとともに,数値および実データ実験による検証を行う。
論文参考訳（メタデータ） (2023-05-24T00:18:48Z)
DELTA: degradation-free fully test-time adaptation [59.74287982885375]
テスト時間バッチ正規化(BN)や自己学習といった,一般的な適応手法では,2つの好ましくない欠陥が隠されていることがわかった。まず、テスト時間BNにおける正規化統計は、現在受信されているテストサンプルに完全に影響され、その結果、不正確な推定結果が得られることを明らかにする。第二に、テスト時間適応中にパラメータ更新が支配的なクラスに偏っていることを示す。
論文参考訳（メタデータ） (2023-01-30T15:54:00Z)
Active Sequential Two-Sample Testing [18.99517340397671]
サンプル測定が安価に利用できる新しいシナリオでは,この2サンプルテストの問題を考慮する。我々は,emphactiveNIST-sampleテストフレームワークを考案し,逐次クエリだけでなく,emphactivelyクエリも考案した。実際に、我々はフレームワークのインスタンス化を導入し、いくつかの実験を用いて評価する。
論文参考訳（メタデータ） (2023-01-30T02:23:49Z)
Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文参考訳（メタデータ） (2022-12-14T18:08:42Z)
What is the Vocabulary of Flaky Tests? An Extended Replication [0.0]
本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
論文参考訳（メタデータ） (2021-03-23T16:42:22Z)
Challenges in Statistical Analysis of Data Collected by a Bandit Algorithm: An Empirical Exploration in Applications to Adaptively Randomized Experiments [11.464963616709671]
多腕バンディットアルゴリズムは、適応的ランダム化実験に有用であると何十年も議論されてきた。バンディットアルゴリズムThompson Sampling (TS) を用いて, 3つの大学で適応実験を行った。 TSを用いたデータ収集はFalse Positive Rate(FPR)とFalse Negative Rate(FNR)を2倍にすることができることを示す。
論文参考訳（メタデータ） (2021-03-22T22:05:18Z)
Significance tests of feature relevance for a blackbox learner [6.72450543613463]
ブラックボックス学習者の特徴関連性に関する2つの一貫した試験を導出する。第1は、推論サンプルの摂動による損失差を評価する。 2つ目は推論サンプルを2つに分割するが、データの摂動は必要ない。
論文参考訳（メタデータ） (2021-03-02T00:59:19Z)
With Little Power Comes Great Responsibility [54.96675741328462]
アンダーパワー実験により、統計的ノイズと有意義なモデル改善の違いを識別することがより困難になる。小さなテストセットは、ほとんどの試行錯誤が、最先端のモデルと比較しても、十分なパワーが得られないことを意味している。機械翻訳では,2000文の典型的テストセットが約75%のパワーで1 BLEU点の差を検出する。
論文参考訳（メタデータ） (2020-10-13T18:00:02Z)
Cross-validation Confidence Intervals for Test Error [83.67415139421448]
この研究は、クロスバリデーションのための中心極限定理と、学習アルゴリズムの弱い安定性条件下での分散の一貫した推定器を開発する。結果は、一般的な1対1のクロスバリデーションの選択にとって、初めてのものだ。
論文参考訳（メタデータ） (2020-07-24T17:40:06Z)
Two-Sample Testing on Ranked Preference Data and the Role of Modeling Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。私たちのテストでは、基本的に分布に関する仮定は必要ありません。実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文参考訳（メタデータ） (2020-06-21T20:51:09Z)
Noisy Adaptive Group Testing using Bayesian Sequential Experimental Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文参考訳（メタデータ） (2020-04-26T23:41:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。