論文の概要: Establishing Strong Baselines for TripClick Health Retrieval
- arxiv url: http://arxiv.org/abs/2201.00365v1
- Date: Sun, 2 Jan 2022 15:03:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 14:49:29.867807
- Title: Establishing Strong Baselines for TripClick Health Retrieval
- Title(参考訳): TripClick Health Retrievalのための強力なベースラインを確立する
- Authors: Sebastian Hofst\"atter, Sophia Althammer, Mete Sertkan, Allan Hanbury
- Abstract要約: 我々は最近リリースされたTripClickヘルス・アドホック検索コレクションに対して,トランスフォーマーをベースとした強力なリグレードと高密度検索ベースラインを提示する。
従来のベースラインでは達成できなかったTripClickのリグレードタスクにおいて,BM25よりも大幅に向上した。
- 参考スコア(独自算出の注目度): 7.911344873839031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present strong Transformer-based re-ranking and dense retrieval baselines
for the recently released TripClick health ad-hoc retrieval collection. We
improve the - originally too noisy - training data with a simple negative
sampling policy. We achieve large gains over BM25 in the re-ranking task of
TripClick, which were not achieved with the original baselines. Furthermore, we
study the impact of different domain-specific pre-trained models on TripClick.
Finally, we show that dense retrieval outperforms BM25 by considerable margins,
even with simple training procedures.
- Abstract(参考訳): 我々は最近リリースされたTripClickヘルス・アドホック検索コレクションに対して,トランスフォーマーをベースとした強力な検索ベースラインを提示する。
最初はうるさい)トレーニングデータを、単純な負のサンプリングポリシーで改善します。
従来のベースラインでは達成できなかったTripClickのリグレードタスクにおいて,BM25よりも大幅に向上した。
さらに,様々なドメイン固有事前学習モデルがtripclickに与える影響について検討した。
最後に, 簡易な訓練手順であっても, 密集検索の方がBM25よりかなり優れていることを示す。
関連論文リスト
- Data Diet: Can Trimming PET/CT Datasets Enhance Lesion Segmentation? [70.38903555729081]
我々はAutoPET3データ中心のトラックで競合するアプローチについて述べる。
AutoPETIIIデータセットでは、データセット全体をトレーニングしたモデルが望ましくない特性を示す。
我々は、スクラッチから再トレーニングする前に、モデル損失によって測定されたトレーニングデータセットから最も簡単なサンプルを取り除き、これを対処する。
論文 参考訳(メタデータ) (2024-09-20T14:47:58Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning [50.809769498312434]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文 参考訳(メタデータ) (2023-11-22T03:45:30Z) - BM25 Query Augmentation Learned End-to-End [20.89707907735832]
拡張学習のアプローチと、エンドツーエンドへの再重み付けを提案する。
速度を保ちながらBM25よりも性能が向上することが確認された。
論文 参考訳(メタデータ) (2023-05-23T14:11:42Z) - An Experimental Study on Pretraining Transformers from Scratch for IR [4.846481187196809]
トレーニング前の収集が最終的なIR効果に与える影響について検討した。
一般の信仰とは対照的に、第1段階のランク付けを微調整する場合には、コレクションのみに事前訓練されたモデルが同等あるいはより良い有効性を持つことを示す。
論文 参考訳(メタデータ) (2023-01-25T07:43:05Z) - On Pre-Training for Visuo-Motor Control: Revisiting a
Learning-from-Scratch Baseline [35.875051972318346]
データ拡張と浅いConvNetを組み込んだシンプルなLearning-from-Scratch(LfS)ベースラインを再検討する。
このベースラインは、大規模な視覚データセットでトレーニングされた凍結した視覚表現を活用する最近のアプローチと驚くほど競合している。
論文 参考訳(メタデータ) (2022-12-12T07:59:31Z) - Towards Unsupervised Dense Information Retrieval with Contrastive
Learning [38.42033176712396]
比較学習は教師なし高密度検索者の学習に有効であることを示す。
私たちのモデルは15のデータセットのうち11でBM25より優れています。
論文 参考訳(メタデータ) (2021-12-16T18:57:37Z) - Learning to Retrieve Passages without Supervision [58.31911597824848]
オープンドメイン質問応答(ODQA)のためのダンスレトリバーは,問合せペアの大規模データセットをトレーニングすることで,優れた性能を発揮することが示されている。
そこで本研究では,自己教師型で高密度検索が学べるかどうかを考察し,アノテーションを使わずに効果的に適用する。
論文 参考訳(メタデータ) (2021-12-14T19:18:08Z) - An Analysis of a BERT Deep Learning Strategy on a Technology Assisted
Review Task [91.3755431537592]
文書検診はEvidenced Based Medicineにおける中心的な課題である。
本稿では,BERT や PubMedBERT を組み込んだ DL 文書分類手法と DL 類似性検索経路を提案する。
2017年と2018年のCLEF eHealth コレクションにおいて,私の DL 戦略の検索の有効性を検証し,評価した。
論文 参考訳(メタデータ) (2021-04-16T19:45:27Z) - Bag of Tricks for Adversarial Training [50.53525358778331]
アドリアリトレーニングは、モデルの堅牢性を促進するための最も効果的な戦略の1つである。
最近のベンチマークでは、提案されたATの改良のほとんどは、単にトレーニング手順を早期に停止するよりも効果が低いことが示されている。
論文 参考訳(メタデータ) (2020-10-01T15:03:51Z) - DARE: Data Augmented Relation Extraction with GPT-2 [0.26651200086513094]
本稿では,データ拡張関係抽出(DARE, Data Augmented Relation extract)を提案する。
DAREは、3つの広く使われているバイオメディカルREデータセットにおいて、前回の結果を平均4.7F1ポイント上回った。
論文 参考訳(メタデータ) (2020-04-06T14:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。