論文の概要: Performance Consistency of Learning Methods for Information Retrieval Tasks
- arxiv url: http://arxiv.org/abs/2509.20804v1
- Date: Thu, 25 Sep 2025 06:33:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.731848
- Title: Performance Consistency of Learning Methods for Information Retrieval Tasks
- Title(参考訳): 情報検索課題における学習手法の性能整合性
- Authors: Meng Yuan, Justin Zobel,
- Abstract要約: ランダム性を用いて、従来の統計学習モデルとトランスフォーマーに基づく学習モデルについて検討する。
統計モデルは安定しているが、変圧器モデルは種子が変化するにつれて大きな変動を示す。
以上の結果から,トランスフォーマーモデルによる不安定性のトレーニングや,過去の結果の信頼性に関する疑問が浮き彫りになった。
- 参考スコア(独自算出の注目度): 3.2228025627337864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A range of approaches have been proposed for estimating the accuracy or robustness of the measured performance of IR methods. One is to use bootstrapping of test sets, which, as we confirm, provides an estimate of variation in performance. For IR methods that rely on a seed, such as those that involve machine learning, another approach is to use a random set of seeds to examine performance variation. Using three different IR tasks we have used such randomness to examine a range of traditional statistical learning models and transformer-based learning models. While the statistical models are stable, the transformer models show huge variation as seeds are changed. In 9 of 11 cases the F1-scores (in the range 0.0--1.0) had a standard deviation of over 0.075; while 7 of 11 precision values (also in the range 0.0--1.0) had a standard deviation of over 0.125. This is in a context where differences of less than 0.02 have been used as evidence of method improvement. Our findings highlight the vulnerability of transformer models to training instabilities and moreover raise questions about the reliability of previous results, thus underscoring the need for rigorous evaluation practices.
- Abstract(参考訳): 測定結果の精度やロバスト性を推定するための様々な手法が提案されている。
ひとつは、テストセットのブートストラップを使用することです。
機械学習など、シードに依存するIRメソッドの場合、別のアプローチでは、ランダムなシードセットを使用してパフォーマンスの変動を調べる。
3つの異なるIRタスクを使用して、従来の統計学習モデルとトランスフォーマーに基づく学習モデルの範囲を調べる。
統計モデルは安定しているが、変圧器モデルは種子が変化するにつれて大きな変動を示す。
11例中9例(0.0-1.0の範囲)では標準偏差が0.075以上、11例中7例(0.0-1.0範囲)では標準偏差が0.0125以上であった。
これは、0.02未満の違いがメソッド改善の証拠として使われてきた状況である。
以上の結果から,トランスフォーマーモデルによる不安定性のトレーニングや,過去の結果の信頼性に関する疑問が浮き彫りになり,厳密な評価プラクティスの必要性が浮き彫りになった。
関連論文リスト
- Quantifying Uncertainty and Variability in Machine Learning: Confidence Intervals for Quantiles in Performance Metric Distributions [0.17265013728931003]
マシンラーニングモデルは、信頼性と堅牢性が重要であるアプリケーションで広く使用されている。
モデル評価は、しばしば、モデルパフォーマンスの固有の変数をキャプチャできないパフォーマンスメトリクスの単一ポイント推定に依存します。
この貢献は、そのような分布を分析するために量子と信頼区間を使うことを探求し、モデルの性能とその不確実性についてより完全な理解を提供する。
論文 参考訳(メタデータ) (2025-01-28T13:21:34Z) - Measuring training variability from stochastic optimization using robust nonparametric testing [5.519968037738177]
本稿では,モデル類似度を測定するために,ロバストな仮説テストフレームワークと,新たな要約統計量である$alpha$-trimmingレベルを提案する。
仮説を$alpha$-trimmingレベルで直接適用することは、null仮説の下で分布を正確に記述できないため、難しい。
モデル変数の測定に$alpha$-trimmingレベルを使用する方法を示し、パフォーマンス指標よりも表現力が高いことを実験的に実証する。
論文 参考訳(メタデータ) (2024-06-12T15:08:15Z) - Uncertainty-aware Sampling for Long-tailed Semi-supervised Learning [89.98353600316285]
擬似ラベルサンプリングのモデル化プロセスに不確実性を導入し、各クラスにおけるモデル性能が異なる訓練段階によって異なることを考慮した。
このアプローチにより、モデルは異なる訓練段階における擬似ラベルの不確かさを認識でき、それによって異なるクラスの選択閾値を適応的に調整できる。
FixMatchのような他の手法と比較して、UDTSは自然シーン画像データセットの精度を少なくとも5.26%、1.75%、9.96%、1.28%向上させる。
論文 参考訳(メタデータ) (2024-01-09T08:59:39Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - On the Variance of Neural Network Training with respect to Test Sets and Distributions [1.994307489466967]
標準のCIFAR-10とImageNetのトレーニングは、基礎となるテスト配信の性能にほとんどばらつきがないことを示す。
テストセットにおけるニューラルネットワークトレーニングのばらつきは,Jiangらによって発見されたクラス校正特性のダウンストリームの結果であることを示す。
本分析では, 分類ケースのばらつきを正確に予測する簡単な式を導出する。
論文 参考訳(メタデータ) (2023-04-04T16:09:55Z) - Estimating Model Performance under Domain Shifts with Class-Specific
Confidence Scores [25.162667593654206]
不均衡なデータセットのパフォーマンス推定の枠組みの中で,クラスワイドキャリブレーションを導入する。
我々は、4つのタスクの実験を行い、提案した修正により、不均衡なデータセットの推定精度を一貫して改善する。
論文 参考訳(メタデータ) (2022-07-20T15:04:32Z) - Predicting Out-of-Domain Generalization with Neighborhood Invariance [59.05399533508682]
局所変換近傍における分類器の出力不変性の尺度を提案する。
私たちの測度は計算が簡単で、テストポイントの真のラベルに依存しません。
画像分類,感情分析,自然言語推論のベンチマーク実験において,我々の測定値と実際のOOD一般化との間に強い相関関係を示す。
論文 参考訳(メタデータ) (2022-07-05T14:55:16Z) - Uncertainty Modeling for Out-of-Distribution Generalization [56.957731893992495]
特徴統計を適切に操作することで、ディープラーニングモデルの一般化能力を向上させることができると論じる。
一般的な手法では、特徴統計を学習した特徴から測定された決定論的値とみなすことが多い。
我々は、学習中に合成された特徴統計を用いて、領域シフトの不確かさをモデル化することにより、ネットワークの一般化能力を向上させる。
論文 参考訳(メタデータ) (2022-02-08T16:09:12Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Transformer Uncertainty Estimation with Hierarchical Stochastic
Attention [8.95459272947319]
本稿では,変圧器に不確実性推定機能を持たせるための新しい手法を提案する。
これは、価値と学習可能なセントロイドのセットに付随する階層的な自己注意を学ぶことで達成される。
我々は、ドメイン内(ID)とドメイン外(OOD)の両方のデータセットを用いて、2つのテキスト分類タスクでモデルを実証的に評価する。
論文 参考訳(メタデータ) (2021-12-27T16:43:31Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。