論文の概要: Pre-training Tasks for Embedding-based Large-scale Retrieval
- arxiv url: http://arxiv.org/abs/2002.03932v1
- Date: Mon, 10 Feb 2020 16:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 07:12:16.237878
- Title: Pre-training Tasks for Embedding-based Large-scale Retrieval
- Title(参考訳): 組込み型大規模検索のための事前学習タスク
- Authors: Wei-Cheng Chang, Felix X. Yu, Yin-Wen Chang, Yiming Yang, Sanjiv Kumar
- Abstract要約: 本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
- 参考スコア(独自算出の注目度): 68.01167604281578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the large-scale query-document retrieval problem: given a query
(e.g., a question), return the set of relevant documents (e.g., paragraphs
containing the answer) from a large document corpus. This problem is often
solved in two steps. The retrieval phase first reduces the solution space,
returning a subset of candidate documents. The scoring phase then re-ranks the
documents. Critically, the retrieval algorithm not only desires high recall but
also requires to be highly efficient, returning candidates in time sublinear to
the number of documents. Unlike the scoring phase witnessing significant
advances recently due to the BERT-style pre-training tasks on cross-attention
models, the retrieval phase remains less well studied. Most previous works rely
on classic Information Retrieval (IR) methods such as BM-25 (token matching +
TF-IDF weights). These models only accept sparse handcrafted features and can
not be optimized for different downstream tasks of interest. In this paper, we
conduct a comprehensive study on the embedding-based retrieval models. We show
that the key ingredient of learning a strong embedding-based Transformer model
is the set of pre-training tasks. With adequately designed paragraph-level
pre-training tasks, the Transformer models can remarkably improve over the
widely-used BM-25 as well as embedding models without Transformers. The
paragraph-level pre-training tasks we studied are Inverse Cloze Task (ICT),
Body First Selection (BFS), Wiki Link Prediction (WLP), and the combination of
all three.
- Abstract(参考訳): クエリ(質問など)が与えられた場合、関連する文書(回答を含む段落など)の集合を大きなドキュメントコーパスから返却する。
この問題は2つのステップで解決されることが多い。
検索フェーズは、まず解空間を縮小し、候補文書のサブセットを返す。
スコアリングフェーズは、ドキュメントを再ランクする。
批判的に、検索アルゴリズムは高いリコールを求めるだけでなく、ドキュメント数に比例する時間内に候補を返すことで、高い効率性も要求する。
BERT方式のクロスアテンションモデルにおける事前学習タスクにより,最近重要な進歩が見られたスコアリングフェーズとは異なり,検索フェーズはいまだにあまり研究されていない。
これまでのほとんどの研究は、BM-25 (token matching + TF-IDF weights)のような古典的な情報検索法に依存していた。
これらのモデルは、スパースハンドクラフト機能のみを受け入れ、異なる下流タスクに最適化できない。
本稿では,埋め込み型検索モデルについて包括的な研究を行う。
組込み型トランスフォーマーモデルを学習する上で重要な要素が,事前学習作業のセットであることを示す。
適切に設計された段落レベルの事前訓練タスクにより、トランスフォーマーモデルは広く使用されているbm-25やトランスフォーマーのない埋め込みモデルを大幅に改善することができる。
段落レベルの事前学習課題は,逆クローズタスク(ICT),ボディーファーストセレクション(BFS),ウィキリンク予測(WLP),およびこれら3つの組み合わせである。
関連論文リスト
- Quam: Adaptive Retrieval through Query Affinity Modelling [15.3583908068962]
ユーザ情報要求に基づいて文書をランク付けする関連モデルを構築することは,情報検索とNLPコミュニティの中心的な課題である。
提案するQuamにより,適応検索の初期段階の統一的な視点を提案する。
提案手法であるQuamは,リコール性能を26%向上させる。
論文 参考訳(メタデータ) (2024-10-26T22:52:12Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - Retrieval as Attention: End-to-end Learning of Retrieval and Reading
within a Single Transformer [80.50327229467993]
学習した1つのモデルが競合検索とQA性能の両方を達成可能であることを示す。
エンドツーエンド適応は、教師なし設定と教師なし設定の両方において、ドメイン外のデータセットのパフォーマンスを大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-12-05T04:51:21Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - Improving Document Representations by Generating Pseudo Query Embeddings
for Dense Retrieval [11.465218502487959]
反復的なクラスタリングプロセスにより,各文書のクエリを模倣する手法を設計する。
また、2段階のスコア計算手順でマッチング関数を最適化する。
いくつかの人気ランキングとQAデータセットに関する実験結果から、私たちのモデルが最先端の結果を達成できることが示された。
論文 参考訳(メタデータ) (2021-05-08T05:28:24Z) - Goldilocks: Just-Right Tuning of BERT for Technology-Assisted Review [14.689883695115519]
technology-assisted review (tar) は、ハイリコール検索タスクにおける文書レビューのための反復的なアクティブラーニングである。
教師付きチューニングを備えたトランスフォーマーベースモデルは,多くのテキスト分類タスクにおいて有効性を向上させることが確認された。
アクティブな学習を始める前にタスクコレクションを微調整する正当性言語モデルが重要であることを示す。
論文 参考訳(メタデータ) (2021-05-03T17:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。