論文の概要: Impact of Shallow vs. Deep Relevance Judgments on BERT-based Reranking Models
- arxiv url: http://arxiv.org/abs/2506.23191v1
- Date: Sun, 29 Jun 2025 11:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.766009
- Title: Impact of Shallow vs. Deep Relevance Judgments on BERT-based Reranking Models
- Title(参考訳): BERTモデルにおける浅部関係判断と深部関係判断の影響
- Authors: Gabriel Iturra-Bocaz, Danny Vo, Petra Galuscakova,
- Abstract要約: 本稿では, BERTを用いたニューラルインフォメーション検索における評価モデルの性能に及ぼす浅度と深度の影響について検討する。
関連性判断の少ない問合せデータセットと、関連性判断の広い問合せを少なくする問合せデータセットを比較した。
以上の結果から,浅層分類データセットは一般に,より広い範囲の利用可能なコンテキストにより,モデルの再ランク付けの一般化と有効性を高めることが示唆された。
- 参考スコア(独自算出の注目度): 1.024113475677323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the impact of shallow versus deep relevance judgments on the performance of BERT-based reranking models in neural Information Retrieval. Shallow-judged datasets, characterized by numerous queries each with few relevance judgments, and deep-judged datasets, involving fewer queries with extensive relevance judgments, are compared. The research assesses how these datasets affect the performance of BERT-based reranking models trained on them. The experiments are run on the MS MARCO and LongEval collections. Results indicate that shallow-judged datasets generally enhance generalization and effectiveness of reranking models due to a broader range of available contexts. The disadvantage of the deep-judged datasets might be mitigated by a larger number of negative training examples.
- Abstract(参考訳): 本稿では, BERTを用いたニューラルインフォメーション検索における評価モデルの性能に及ぼす浅度と深度の影響について検討する。
関連性判断の少ない問合せデータセットと、関連性判断の広い問合せを少なくする問合せデータセットを比較した。
この研究は、これらのデータセットがBERTベースのリグレードモデルのパフォーマンスにどのように影響するかを評価する。
実験はMS MARCOとLongEvalのコレクションで行われている。
以上の結果から,浅層分類データセットは一般に,より広い範囲の利用可能なコンテキストにより,モデルの再ランク付けの一般化と有効性を高めることが示唆された。
ディープラーニングデータセットのデメリットは、多くの負のトレーニング例によって緩和される可能性がある。
関連論文リスト
- Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution [66.11004226578771]
既存の堅牢なベンチマークデータセットには2つの重要な制限がある。
単一の情報抽出(IE)タスクに対して、限られた範囲の摂動しか生成しない。
LLM(Large Language Models)の強力な生成機能を考慮すると、ruIE-Benchと呼ばれるRobust UIEのための新しいベンチマークデータセットを導入する。
データのうち、 textbf15% しかトレーニングしない場合、3つの IE タスクに対して、平均 textbf7.5% の相対的なパフォーマンス改善につながることを示す。
論文 参考訳(メタデータ) (2025-03-05T05:39:29Z) - Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - OffsetBias: Leveraging Debiased Data for Tuning Evaluators [1.5790747258969664]
様々な判断モデルに固有の6種類のバイアスを定性的に同定する。
データセットの微調整は、バイアスに対する判断モデルの堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-09T05:16:22Z) - Sources of Gain: Decomposing Performance in Conditional Average Dose Response Estimation [0.9332308328407303]
条件付き平均線量応答(CADR)の推定は重要であるが難しい問題である。
本稿では,この手法を解析し,さらなる分析を行わない一般的なベンチマークデータセットを用いることで,モデル性能を判断するには不十分であることを示す。
本稿では,CADR推定器の性能に寄与する5つの異なる成分の影響を評価できる新しい分解手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T13:39:32Z) - On Counterfactual Data Augmentation Under Confounding [30.76982059341284]
トレーニングデータのバイアスを緩和する手段として、対実データ拡張が出現している。
これらのバイアスは、データ生成プロセスにおいて観測され、観測されていない様々な共役変数によって生じる。
提案手法は,既存の最先端手法が優れた結果を得るのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2023-05-29T16:20:23Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Adversarial Filters of Dataset Biases [96.090959788952]
大規模なニューラルモデルでは、言語とビジョンベンチマークで人間レベルのパフォーマンスが実証されている。
それらの性能は、敵対的またはアウト・オブ・ディストリビューションのサンプルで著しく低下する。
このようなデータセットバイアスを逆フィルタするAFLiteを提案する。
論文 参考訳(メタデータ) (2020-02-10T21:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。