論文の概要: Information retrieval for label noise document ranking by bag sampling
and group-wise loss
- arxiv url: http://arxiv.org/abs/2203.06408v1
- Date: Sat, 12 Mar 2022 10:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-20 00:03:36.307902
- Title: Information retrieval for label noise document ranking by bag sampling
and group-wise loss
- Title(参考訳): バッグサンプリングとグループワイドロスによるラベルノイズ文書ランキング情報検索
- Authors: Chunyu Li and Jiajia Ding and Xing hu and Fan Wang
- Abstract要約: 本稿では,バッグサンプリング法とグループワイド・ローカライズド・コントラスト推定(LCE)法を提案する。
特に,MS MARCO Long文書ランキングでは優れた性能を示した。
- 参考スコア(独自算出の注目度): 11.121089099215839
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Long Document retrieval (DR) has always been a tremendous challenge for
reading comprehension and information retrieval. The pre-training model has
achieved good results in the retrieval stage and Ranking for long documents in
recent years. However, there is still some crucial problem in long document
ranking, such as data label noises, long document representations, negative
data Unbalanced sampling, etc. To eliminate the noise of labeled data and to be
able to sample the long documents in the search reasonably negatively, we
propose the bag sampling method and the group-wise Localized Contrastive
Estimation(LCE) method. We use the head middle tail passage for the long
document to encode the long document, and in the retrieval, stage Use dense
retrieval to generate the candidate's data. The retrieval data is divided into
multiple bags at the ranking stage, and negative samples are selected in each
bag. After sampling, two losses are combined. The first loss is LCE. To fit bag
sampling well, after query and document are encoded, the global features of
each group are extracted by convolutional layer and max-pooling to improve the
model's resistance to the impact of labeling noise, finally, calculate the LCE
group-wise loss. Notably, our model shows excellent performance on the MS MARCO
Long document ranking leaderboard.
- Abstract(参考訳): 長い文書検索(DR)は理解と情報検索において常に大きな課題である。
事前学習モデルは,近年の長期文書検索とランキングにおいて良好な成果を上げている。
しかし、データラベルのノイズ、長いドキュメントの表現、負のデータアンバランスサンプリングなど、長いドキュメントのランク付けには依然として重大な問題がある。
ラベル付きデータのノイズを除去し,検索における長文のサンプル化を合理的に行えるようにするため,バッグサンプリング法とグループワイズローカライズコントラスト推定(lce)法を提案する。
長い文書をエンコードするために、頭部中尾通路を用いて長い文書を符号化し、検索において、段階的に濃密な検索を行い、候補のデータを生成する。
検索データはランキング段階で複数の袋に分割され、各袋に負のサンプルが選択される。
サンプリング後、2つの損失が組み合わされる。
最初の損失はLCEである。
バッグサンプリングをうまく適合させるために、クエリとドキュメントを符号化した後、各グループのグローバルな特徴を畳み込み層と最大プールにより抽出し、ラベル付けノイズの影響に対するモデルの抵抗を改善し、最終的にLCEグループワイドロスを算出する。
特に,MS MARCO Long文書ランキングでは優れた性能を示した。
関連論文リスト
- List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - Non-Parametric Memory Guidance for Multi-Document Summarization [0.0]
本稿では,非パラメトリックメモリと組み合わせたレトリバー誘導モデルを提案する。
このモデルはデータベースから関連する候補を検索し、その候補をコピー機構とソースドキュメントで考慮して要約を生成する。
本手法は,学術論文を含むMultiXScienceデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-11-14T07:41:48Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - SeDR: Segment Representation Learning for Long Documents Dense Retrieval [17.864362372788374]
長文Dense Retrieval(SeDR)のためのセグメンテーション表現学習を提案する。
SeDRは長いドキュメントを文書認識とセグメント認識の表現にエンコードするが、分割とプーリングの複雑さを保っている。
MS MARCO と TREC-DL データセットを用いた実験により,SeDR は DR モデルにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-11-20T01:28:44Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - WSL-DS: Weakly Supervised Learning with Distant Supervision for Query
Focused Multi-Document Abstractive Summarization [16.048329028104643]
Query Focused Multi-Document Summarization (QF-MDS)タスクでは、ドキュメントのセットとクエリが与えられ、そこでこれらのドキュメントから要約を生成する。
このタスクの大きな課題のひとつは、ラベル付きトレーニングデータセットの可用性の欠如である。
本稿では,遠隔指導による弱教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T02:02:55Z) - Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。