論文の概要: Neural Passage Retrieval with Improved Negative Contrast
- arxiv url: http://arxiv.org/abs/2010.12523v1
- Date: Fri, 23 Oct 2020 16:45:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 22:43:13.335682
- Title: Neural Passage Retrieval with Improved Negative Contrast
- Title(参考訳): ネガティブコントラストを改良したニューラルパス検索
- Authors: Jing Lu, Gustavo Hernandez Abrego, Ji Ma, Jianmo Ni, Yinfei Yang
- Abstract要約: 我々は、通常、二重エンコーダモデルの訓練に使用される正のランダムサンプリングを補完する4つの負のサンプリング戦略を探求する。
検索に基づく戦略は,意味的類似性と質問文と文節間の語彙的重複に基づく。
その結果、オープンドメインの質問応答データセットの2つに対して、最先端のパフォーマンスの新たなレベルを確立した。
- 参考スコア(独自算出の注目度): 21.415627458949356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we explore the effects of negative sampling in dual encoder
models used to retrieve passages for automatic question answering. We explore
four negative sampling strategies that complement the straightforward random
sampling of negatives, typically used to train dual encoder models. Out of the
four strategies, three are based on retrieval and one on heuristics. Our
retrieval-based strategies are based on the semantic similarity and the lexical
overlap between questions and passages. We train the dual encoder models in two
stages: pre-training with synthetic data and fine tuning with domain-specific
data. We apply negative sampling to both stages. The approach is evaluated in
two passage retrieval tasks. Even though it is not evident that there is one
single sampling strategy that works best in all the tasks, it is clear that our
strategies contribute to improving the contrast between the response and all
the other passages. Furthermore, mixing the negatives from different strategies
achieve performance on par with the best performing strategy in all tasks. Our
results establish a new state-of-the-art level of performance on two of the
open-domain question answering datasets that we evaluated.
- Abstract(参考訳): 本稿では,2つのエンコーダモデルにおける負サンプリングの効果について検討する。
我々は、通常、二重エンコーダモデルの訓練に使用される正のランダムサンプリングを補完する4つの負のサンプリング戦略を探求する。
4つの戦略のうち3つは検索に基づいており、1つはヒューリスティックに基づいている。
検索に基づく戦略は,意味的類似性と質問文と文節間の語彙的重複に基づく。
合成データによる事前トレーニングとドメイン固有データによる微調整の2段階において、デュアルエンコーダモデルをトレーニングする。
両段階に負のサンプリングを適用する。
この手法は2つの経路探索タスクで評価される。
全てのタスクに最適な1つのサンプリング戦略が存在することは明らかではないが、我々の戦略が応答と他の全てのパスとのコントラストの改善に寄与していることは明らかである。
さらに、異なる戦略からの負の混合は、すべてのタスクで最高のパフォーマンス戦略と同等のパフォーマンスを達成する。
その結果,我々が評価した2つのオープンドメイン質問応答データセットにおいて,新たな最先端のパフォーマンスが確立された。
関連論文リスト
- Exploring the Performance of Continuous-Time Dynamic Link Prediction Algorithms [14.82820088479196]
ダイナミックリンク予測(DLP)は、進化するネットワークにおける将来のリンクの予測に対処する。
本研究では,このような総合的な評価を行うためのツールをコントリビュートする。
評価時に使用可能な陰性サンプリング手法の網羅的な分類法について述べる。
論文 参考訳(メタデータ) (2024-05-27T14:03:28Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Relation-Aware Network with Attention-Based Loss for Few-Shot Knowledge
Graph Completion [9.181270251524866]
現在のアプローチでは、マージンベースのランキング損失を最小限に抑えるために、参照エンティティペア毎に1つの負のサンプルをランダムに選択する。
本稿では,意図に基づくロスフレームワークを用いたリレーショナル・アウェア・ネットワークを提案する。
実験により、RANAは2つのベンチマークデータセットで最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-15T21:41:43Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Disjoint Contrastive Regression Learning for Multi-Sourced Annotations [10.159313152511919]
大規模データセットはディープラーニングモデルの開発に重要である。
複数のアノテータを使用して、データの異なるサブセットをラベル付けすることができる。
異なるアノテータ間の矛盾とバイアスはモデルトレーニングに有害である。
論文 参考訳(メタデータ) (2021-12-31T12:39:04Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - Doubly Contrastive Deep Clustering [135.7001508427597]
本稿では、サンプルビューとクラスビューの両方でコントラスト損失を構築する新しい二重コントラストディープクラスタリング(DCDC)フレームワークを紹介します。
具体的には、サンプルビューに対して、元のサンプルとその拡張バージョンのクラス分布を正のサンプルペアとして設定する。
クラスビューでは、クラスのサンプル分布から正のペアと負のペアを構築します。
このように、2つのコントラスト損失は、サンプルとクラスレベルでのミニバッチサンプルのクラスタリング結果をうまく制限します。
論文 参考訳(メタデータ) (2021-03-09T15:15:32Z) - Semi-supervised Collaborative Filtering by Text-enhanced Domain
Adaptation [32.93934837792708]
半教師付き学習課題として、疎い暗黙のフィードバックを推奨する問題を考察する。
もっとも難しいケースにフォーカスします -- ユーザや項目の重複はありません。
我々は、潜在空間を整列させるためにアンカーポイントとして、ドメイン不変のテキスト特徴を採用する。
論文 参考訳(メタデータ) (2020-06-28T05:28:05Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。