論文の概要: Domain-matched Pre-training Tasks for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2107.13602v1
- Date: Wed, 28 Jul 2021 19:13:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-31 00:43:54.289549
- Title: Domain-matched Pre-training Tasks for Dense Retrieval
- Title(参考訳): ディエンス検索のためのドメインマッチング事前学習タスク
- Authors: Barlas O\u{g}uz, Kushal Lakhotia, Anchit Gupta, Patrick Lewis,
Vladimir Karpukhin, Aleksandra Piktus, Xilun Chen, Sebastian Riedel, Wen-tau
Yih, Sonal Gupta, Yashar Mehdad
- Abstract要約: モデルサイズがますます大きくなる大規模データセットでの事前トレーニングは、ほぼすべてのNLPタスクのパフォーマンス向上のための実証済みのレシピである。
適切な事前トレーニング設定で、この障壁を克服できることが示されています。
1)最近リリースされた6500万の合成された質問セットと、既存のReddit会話のデータセットから2億のポストコメンデーションペアをトレーニングすることで、これを実証する。
- 参考スコア(独自算出の注目度): 68.07140087626637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training on larger datasets with ever increasing model size is now a
proven recipe for increased performance across almost all NLP tasks. A notable
exception is information retrieval, where additional pre-training has so far
failed to produce convincing results. We show that, with the right pre-training
setup, this barrier can be overcome. We demonstrate this by pre-training large
bi-encoder models on 1) a recently released set of 65 million synthetically
generated questions, and 2) 200 million post-comment pairs from a preexisting
dataset of Reddit conversations made available by pushshift.io. We evaluate on
a set of information retrieval and dialogue retrieval benchmarks, showing
substantial improvements over supervised baselines.
- Abstract(参考訳): モデルサイズが大きくなった大規模データセットの事前トレーニングが、ほぼすべてのNLPタスクのパフォーマンス向上の実証済みレシピとなった。
注目すべき例外は情報検索であり、追加の事前学習では説得力のある結果が得られていない。
適切な事前トレーニング設定で、この障壁を克服できることが示されています。
我々は、1)最近リリースされた6500万の合成された質問と2)pushshift.ioで利用可能なRedditの会話のデータセットから2億のポストコメンデーションペアのセットで、大規模なバイエンコーダモデルを事前トレーニングすることでこれを実証する。
情報検索と対話検索のベンチマークを行い、教師付きベースラインよりも大幅に改善したことを示す。
関連論文リスト
- Divide and Conquer: Hybrid Pre-training for Person Search [40.13016375392472]
本研究では,サブタスクデータのみを用いた人物検索のためのハイブリッド事前学習フレームワークを提案する。
我々のモデルは、人物探索法、微調整データ、事前学習データ、モデルバックボーンなど、多様なプロトコルで大幅に改善できる。
私たちのコードと事前訓練されたモデルは、人検索コミュニティにプラグイン・アンド・プレイの使用のためにリリースされます。
論文 参考訳(メタデータ) (2023-12-13T08:33:50Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - When Less is More: Investigating Data Pruning for Pretraining LLMs at
Scale [12.94829977468838]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。
これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。
より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文 参考訳(メタデータ) (2023-09-08T19:34:05Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - AD-PT: Autonomous Driving Pre-Training with Large-scale Point Cloud
Dataset [25.935496432142976]
知覚モデルが大規模なクラウドデータセットから学ぶことは、Autonomous Driving (AD)コミュニティの長期的なビジョンである。
我々は、ポイントクラウド事前トレーニングタスクを半教師付き問題として定式化し、少数のラベル付きおよび大規模ラベルなしのポイントクラウドデータを活用する。
我々は、異なるベースラインモデルの下で、nuScenesやKITTIを含む一連の下流認識ベンチマークにおいて、大幅な性能向上を達成する。
論文 参考訳(メタデータ) (2023-06-01T12:32:52Z) - BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning
for Automatic Speech Recognition [126.5605160882849]
事前学習,自己学習,モデルサイズのスケールアップの組み合わせによって,データの効率が大幅に向上することがわかった。
本稿では,大規模な下流タスクに対して,事前学習モデルと自己学習モデルを使用することによって得られる普遍的なメリットについて報告する。
論文 参考訳(メタデータ) (2021-09-27T17:59:19Z) - Pretraining Representations for Data-Efficient Reinforcement Learning [12.43475487724972]
ラベルのないデータを使ってエンコーダを事前訓練し、少数のタスク固有のデータに基づいて微調整する。
Atariゲーム上でのインタラクションが100万段階に制限された場合、我々のアプローチは以前の作業を大幅に上回っている。
提案手法では,大規模モデルと組み合わせることで,より多様なタスク整合観測データが得られる。
論文 参考訳(メタデータ) (2021-06-09T04:14:27Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。