論文の概要: SimANS: Simple Ambiguous Negatives Sampling for Dense Text Retrieval
- arxiv url: http://arxiv.org/abs/2210.11773v2
- Date: Mon, 24 Oct 2022 08:39:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:55:56.260824
- Title: SimANS: Simple Ambiguous Negatives Sampling for Dense Text Retrieval
- Title(参考訳): SimANS: テキスト検索のための単純な曖昧な否定
- Authors: Kun Zhou, Yeyun Gong, Xiao Liu, Wayne Xin Zhao, Yelong Shen, Anlei
Dong, Jingwen Lu, Rangan Majumder, Ji-Rong Wen, Nan Duan and Weizhu Chen
- Abstract要約: 評価結果によると, 正の値にランク付けされた負の値は, 一般的にはより情報的であり, 偽陰の可能性が低いことがわかった。
そこで本研究では,よりあいまいな負のサンプリングに新しいサンプリング確率分布を組み込んだ,単純な曖昧な負のサンプリング手法であるSimANSを提案する。
- 参考スコア(独自算出の注目度): 126.22182758461244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sampling proper negatives from a large document pool is vital to effectively
train a dense retrieval model. However, existing negative sampling strategies
suffer from the uninformative or false negative problem. In this work, we
empirically show that according to the measured relevance scores, the negatives
ranked around the positives are generally more informative and less likely to
be false negatives. Intuitively, these negatives are not too hard (\emph{may be
false negatives}) or too easy (\emph{uninformative}). They are the ambiguous
negatives and need more attention during training. Thus, we propose a simple
ambiguous negatives sampling method, SimANS, which incorporates a new sampling
probability distribution to sample more ambiguous negatives. Extensive
experiments on four public and one industry datasets show the effectiveness of
our approach. We made the code and models publicly available in
\url{https://github.com/microsoft/SimXNS}.
- Abstract(参考訳): 大きなドキュメントプールから適切な負をサンプリングすることは、密集した検索モデルを効果的に訓練するのに不可欠である。
しかし、既存の負のサンプリング戦略は、不正または偽の負の問題に悩まされている。
本研究は,測定結果から,正値を中心にランク付けされた負値が概して有益であり,偽陰性である可能性が低いことを実証的に示す。
直感的には、これらの負はそれほど難しくない(偽陰性である)か、簡単すぎる(偽陰性)。
それらはあいまいなネガティブであり、トレーニング中にもっと注意が必要である。
そこで本研究では,新しいサンプリング確率分布を組み込んだ簡易なあいまいな負のサンプリング法であるsimansを提案する。
4つのパブリックデータセットと1つの業界データセットに関する広範な実験は、このアプローチの有効性を示しています。
コードとモデルは \url{https://github.com/microsoft/SimXNS} で公開しました。
関連論文リスト
- Your Negative May not Be True Negative: Boosting Image-Text Matching
with False Negative Elimination [62.18768931714238]
提案手法は, サンプリングによる新規な偽陰性除去 (FNE) 戦略である。
その結果,提案した偽陰性除去戦略の優位性が示された。
論文 参考訳(メタデータ) (2023-08-08T16:31:43Z) - Better Sampling of Negatives for Distantly Supervised Named Entity
Recognition [39.264878763160766]
本稿では, 正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正
提案手法は,4つの遠隔教師付きNERデータセットに対して一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2023-05-22T15:35:39Z) - Negative Sampling for Recommendation [7.758275614033198]
高品質なネガティブなインスタンスを効果的にサンプルする方法は、レコメンデーションモデルを適切にトレーニングするために重要である。
我々は、高品質なネガティブは、テクスチュンフォームネスとテクスチュンバイアスネスの両方であるべきだと論じる。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Stay Positive: Knowledge Graph Embedding Without Negative Sampling [1.8275108630751844]
損失関数に新たな正規化項を追加することにより、ネガティブサンプリングの必要性を回避できる訓練手順を提案する。
我々の2つの関係埋め込みモデル(DistMultとSimplE)の結果は、性能と速度の両面で提案の利点を示している。
論文 参考訳(メタデータ) (2022-01-07T20:09:27Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Contrastive Learning with Hard Negative Samples [80.12117639845678]
我々は, 厳密な陰性サンプルを選択するために, 教師なしサンプリング手法を新たに開発する。
このサンプリングの制限ケースは、各クラスをしっかりとクラスタ化し、可能な限り異なるクラスを遠くにプッシュする表現をもたらす。
提案手法は、複数のモードをまたいだダウンストリーム性能を改善し、実装するコード行数が少なく、計算オーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2020-10-09T14:18:53Z) - Simplify and Robustify Negative Sampling for Implicit Collaborative
Filtering [42.832851785261894]
本稿では,まず,モデル学習において潜在的に重要な事例が少数存在することを実証的に観察し,ネガティブな事例を新たに理解する。
次に、メモリに格納された高分散サンプルを好んで、修正されていない偽陰性問題に取り組む。
2つの合成データセットと3つの実世界のデータセットの実証結果は、我々の負サンプリング法の堅牢性と優位性を示している。
論文 参考訳(メタデータ) (2020-09-07T19:08:26Z) - Understanding Negative Sampling in Graph Representation Learning [87.35038268508414]
最適化目標と結果のばらつきを決定するためには, 正のサンプリングと同様に負のサンプリングが重要であることを示す。
我々は,自己コントラスト近似による正の分布を近似し,メトロポリス・ハスティングスによる負のサンプリングを高速化するメトロポリス・ハスティングス(MCNS)を提案する。
提案手法は,リンク予測,ノード分類,パーソナライズドレコメンデーションを含む,下流グラフ学習タスクをカバーする5つのデータセットに対して評価する。
論文 参考訳(メタデータ) (2020-05-20T06:25:21Z) - Reinforced Negative Sampling over Knowledge Graph for Recommendation [106.07209348727564]
我々は、高品質なネガティブを探索する強化学習エージェントとして機能する新しい負サンプリングモデル、知識グラフポリシーネットワーク(kgPolicy)を開発した。
kgPolicyは、ターゲットのポジティブなインタラクションからナビゲートし、知識を意識したネガティブなシグナルを適応的に受信し、最終的にはリコメンダをトレーニングする潜在的なネガティブなアイテムを生成する。
論文 参考訳(メタデータ) (2020-03-12T12:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。