論文の概要: Systematic Evaluation of Neural Retrieval Models on the Touché 2020 Argument Retrieval Subset of BEIR
- arxiv url: http://arxiv.org/abs/2407.07790v1
- Date: Wed, 10 Jul 2024 16:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 19:45:54.557209
- Title: Systematic Evaluation of Neural Retrieval Models on the Touché 2020 Argument Retrieval Subset of BEIR
- Title(参考訳): Touché 2020 Argument Retrieval Subset of BEIRによるニューラル検索モデルの体系的評価
- Authors: Nandan Thakur, Luiz Bonifacio, Maik Fröbe, Alexander Bondarenko, Ehsan Kamalloo, Martin Potthast, Matthias Hagen, Jimmy Lin,
- Abstract要約: 我々は、ニューラル検索モデルの潜在的な限界を探るため、Touch'e 2020データの研究を行っている。
私たちのブラックボックス評価は、短いパスを取得するためのニューラルネットワークの固有のバイアスを明らかにします。
Touch'eの短いパスの多くは議論の余地がなく、したがって関連性がないので、非常に短いパスを除外してTouch'e 2020のデータに注目する。
- 参考スコア(独自算出の注目度): 99.13855300096925
- License:
- Abstract: The zero-shot effectiveness of neural retrieval models is often evaluated on the BEIR benchmark -- a combination of different IR evaluation datasets. Interestingly, previous studies found that particularly on the BEIR subset Touch\'e 2020, an argument retrieval task, neural retrieval models are considerably less effective than BM25. Still, so far, no further investigation has been conducted on what makes argument retrieval so "special". To more deeply analyze the respective potential limits of neural retrieval models, we run a reproducibility study on the Touch\'e 2020 data. In our study, we focus on two experiments: (i) a black-box evaluation (i.e., no model retraining), incorporating a theoretical exploration using retrieval axioms, and (ii) a data denoising evaluation involving post-hoc relevance judgments. Our black-box evaluation reveals an inherent bias of neural models towards retrieving short passages from the Touch\'e 2020 data, and we also find that quite a few of the neural models' results are unjudged in the Touch\'e 2020 data. As many of the short Touch\'e passages are not argumentative and thus non-relevant per se, and as the missing judgments complicate fair comparison, we denoise the Touch\'e 2020 data by excluding very short passages (less than 20 words) and by augmenting the unjudged data with post-hoc judgments following the Touch\'e guidelines. On the denoised data, the effectiveness of the neural models improves by up to 0.52 in nDCG@10, but BM25 is still more effective. Our code and the augmented Touch\'e 2020 dataset are available at \url{https://github.com/castorini/touche-error-analysis}.
- Abstract(参考訳): ニューラル検索モデルのゼロショットの有効性は、異なるIR評価データセットの組み合わせであるBEIRベンチマークで評価されることが多い。
興味深いことに、以前の研究では、特にBEIRサブセットであるTouch\'e 2020では、引数検索タスクであるニューラル検索モデルはBM25よりもかなり効果が低いことがわかった。
いまだに、議論の検索を「特別な」ものにするためのさらなる調査は行われていない。
ニューラル検索モデルの潜在的な限界をより深く分析するために、Touch\'e 2020データに関する再現性調査を実施している。
本研究では,2つの実験に焦点をあてる。
一 ブラックボックス評価(モデル再訓練なし)であって、検索公理を用いた理論的探索を取り入れたものであって、
2ホック後の関連判断を含む評価データ
私たちのブラックボックス評価は、Touch\'e 2020データから短いパスを取得するためのニューラルネットワークの固有のバイアスを明らかにしています。
短いTouch\e節の多くは議論の余地がなく、したがって、それ自体は非関連であり、また、欠落した判断が公正な比較を複雑にするので、Touch\'e 2020データを非常に短い行(20語未満)を除外し、Touch\'eガイドラインに従って不当な判断を下すことにより、Touch\'e 2020データを悪用する。
復号化データでは、ニューラルモデルの有効性は nDCG@10 で 0.52 向上するが、BM25 は依然として有効である。
私たちのコードと強化されたTouch\'e 2020データセットは、 \url{https://github.com/castorini/touche-error-analysis}で利用可能です。
関連論文リスト
- Investigating Weight-Perturbed Deep Neural Networks With Application in
Iris Presentation Attack Detection [11.209470024746683]
重みとバイアスパラメータに対する摂動に対するディープニューラルネットワークの感度を評価する。
トレーニングを行なわずに、ネットワークのパラメータを摂動させることで、改良されたモデルを提案する。
パラメータレベルのアンサンブルは、LivDet-Iris-2017データセットで43.58%、LivDet-Iris-2020データセットで9.25%の平均的な改善を示している。
論文 参考訳(メタデータ) (2023-11-21T18:18:50Z) - Continuous time recurrent neural networks: overview and application to
forecasting blood glucose in the intensive care unit [56.801856519460465]
連続時間自己回帰リカレントニューラルネットワーク(Continuous Time Autoregressive Recurrent Neural Network, CTRNN)は、不規則な観測を考慮に入れたディープラーニングモデルである。
重篤なケア環境下での血糖値の確率予測へのこれらのモデルの適用を実証する。
論文 参考訳(メタデータ) (2023-04-14T09:39:06Z) - Reveal to Revise: An Explainable AI Life Cycle for Iterative Bias
Correction of Deep Models [11.879170124003252]
最先端の機械学習モデルは、トレーニングデータに埋め込まれた急激な相関を学習することが多い。
これにより、これらのモデルを高い意思決定のためにデプロイする際のリスクが生じる。
そこで我々はReveal to Revise (R2R)を提案する。
論文 参考訳(メタデータ) (2023-03-22T15:23:09Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - Combining human parsing with analytical feature extraction and ranking
schemes for high-generalization person reidentification [0.0]
近年,科学と社会の両面での重要性から,人物再識別(re-ID)が注目されている。
機械学習、特にDeep Learning (DL)は、研究者がベンチマークデータセットで前例のない精度のレベルを達成できるようにする主要なRe-idツールとなっている。
本稿では,高一般化の可能性を示す訓練可能なパラメータを含まないモデルを提案する。
論文 参考訳(メタデータ) (2022-07-28T17:22:48Z) - PROMISSING: Pruning Missing Values in Neural Networks [0.0]
本稿では,ニューラルネットワークの学習と推論の段階において,欠落値(PROMISSing)を抽出する,シンプルで直感的かつ効果的な手法を提案する。
実験の結果, ProMISSing は様々な計算手法と比較して予測性能が良くなることがわかった。
論文 参考訳(メタデータ) (2022-06-03T15:37:27Z) - A Thorough Examination on Zero-shot Dense Retrieval [84.70868940598143]
本稿では,高密度検索(DR)モデルのゼロショット能力について,初めて徹底的に検討する。
我々は、ソーストレーニングセットに関連するいくつかの重要な要素の効果を議論し、ターゲットデータセットから潜在的なバイアスを分析し、既存のゼロショットDRモデルをレビューし、比較する。
論文 参考訳(メタデータ) (2022-04-27T07:59:07Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Classification of fNIRS Data Under Uncertainty: A Bayesian Neural
Network Approach [0.15229257192293197]
オープンアクセスデータセット上でバイナリ分類を行うために,ベイズニューラルネットワーク(bnn)を使用する。
私たちのモデルは、ボランティア30人に対して86.44%の全体的な分類精度を作り出した。
論文 参考訳(メタデータ) (2021-01-18T15:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。