論文の概要: Neighborhood Contrastive Learning for Scientific Document
Representations with Citation Embeddings
- arxiv url: http://arxiv.org/abs/2202.06671v1
- Date: Mon, 14 Feb 2022 12:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 22:51:19.322899
- Title: Neighborhood Contrastive Learning for Scientific Document
Representations with Citation Embeddings
- Title(参考訳): 引用埋め込みを用いた科学文書表現のための近所の対比学習
- Authors: Malte Ostendorff, Nils Rethmeier, Isabelle Augenstein, Bela Gipp,
Georg Rehm
- Abstract要約: 以前の研究は、コントラストサンプルを生成するために離散的な励起関係に依存していた。
提案手法では, 参照グラフの埋め込みに近接する近距離サンプリングをコントラスト学習に用いる。
その結果、SciNCLはSciDocsベンチマークの最先端よりも優れている。
- 参考スコア(独自算出の注目度): 35.879758282914565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning scientific document representations can be substantially improved
through contrastive learning objectives, where the challenge lies in creating
positive and negative training samples that encode the desired similarity
semantics. Prior work relies on discrete citation relations to generate
contrast samples. However, discrete citations enforce a hard cut-off to
similarity. This is counter-intuitive to similarity-based learning, and ignores
that scientific papers can be very similar despite lacking a direct citation -
a core problem of finding related research. Instead, we use controlled nearest
neighbor sampling over citation graph embeddings for contrastive learning. This
control allows us to learn continuous similarity, to sample hard-to-learn
negatives and positives, and also to avoid collisions between negative and
positive samples by controlling the sampling margin between them. The resulting
method SciNCL outperforms the state-of-the-art on the SciDocs benchmark.
Furthermore, we demonstrate that it can train (or tune) models
sample-efficiently, and that it can be combined with recent training-efficient
methods. Perhaps surprisingly, even training a general-domain language model
this way outperforms baselines pretrained in-domain.
- Abstract(参考訳): 科学的文書表現の学習は対照的な学習目標を通じて大幅に改善され、そこでは、望ましい類似性意味論を符号化する正負のトレーニングサンプルを作成することが課題となる。
先行研究は、コントラストサンプルを生成するために離散的な引用関係に依存する。
しかし、離散的な引用は類似性に固執する。
これは類似性に基づく学習に反する直感的であり、関連する研究を見つける上での直接的な引用の問題が欠如しているにもかかわらず、科学的論文が非常によく似ていることを無視する。
代わりに、コントラスト学習のために、引用グラフ埋め込み上の制御された近接サンプリングを使用する。
この制御により、連続的な類似性を学習し、難解な負と正のサンプルをサンプリングし、またそれらのサンプルマージンを制御することで、負のサンプルと正のサンプルの衝突を避けることができる。
その結果、SciNCLはSciDocsベンチマークの最先端よりも優れている。
さらに,モデルをサンプル効率良くトレーニング(あるいはチューニング)でき,近年のトレーニング効率のよい手法と組み合わせることができることを示す。
おそらく驚くべきことに、この方法で汎用ドメイン言語モデルをトレーニングしても、ドメイン内で事前トレーニングされたベースラインを上回っます。
関連論文リスト
- Contrastive Learning with Negative Sampling Correction [52.990001829393506]
PUCL(Positive-Unlabeled Contrastive Learning)という新しいコントラスト学習手法を提案する。
PUCLは生成した負のサンプルをラベルのないサンプルとして扱い、正のサンプルからの情報を用いて、対照的な損失のバイアスを補正する。
PUCLは一般的なコントラスト学習問題に適用でき、様々な画像やグラフの分類タスクにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-01-13T11:18:18Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Sample-Specific Debiasing for Better Image-Text Models [6.301766237907306]
画像テキストデータに基づく自己教師付き表現学習は、画像分類、視覚的接地、相互モーダル検索などの重要な医学的応用を促進する。
1つの一般的なアプローチは、意味論的に類似した(肯定的な)および異種(否定的な)データポイントの対を対比することである。
トレーニングデータセットから一様に負のサンプルを描画すると、偽の負、すなわち、異種として扱われるが同一のクラスに属するサンプルが導入される。
医療データでは、基礎となるクラス分布は不均一であり、偽陰性は高い変動率で起こることを意味する。
論文 参考訳(メタデータ) (2023-04-25T22:23:41Z) - Synthetic Hard Negative Samples for Contrastive Learning [8.776888865665024]
本稿では,コントラスト学習のための新しい特徴レベル手法,すなわち合成硬質負のサンプルをサンプリングする手法を提案する。
負試料を混合し, アンカー試料と他の負試料とのコントラストを制御して, より硬い負試料を生成する。
提案手法は,画像データセットの分類性能を向上し,既存の手法に容易に組み込むことができる。
論文 参考訳(メタデータ) (2023-04-06T09:54:35Z) - Generating Counterfactual Hard Negative Samples for Graph Contrastive
Learning [22.200011046576716]
グラフコントラスト学習は教師なしグラフ表現学習の強力なツールである。
最近の研究は、通常、正のサンプルと同一のトレーニングバッチから、または外部の無関係なグラフから、負のサンプルをサンプリングする。
我々は、textbfCounterfactual Mechanism を利用して、TextbfContrastive Learning のための人工的硬質負のサンプルを生成する方法を提案する。
論文 参考訳(メタデータ) (2022-07-01T02:19:59Z) - Exploring the Impact of Negative Samples of Contrastive Learning: A Case
Study of Sentence Embedding [14.295787044482136]
文埋め込みのための負のサンプル列を持つモーメントコントラスト学習モデル、すなわちMoCoSEを提案する。
我々は最大トレーサブル距離測定値を定義し、テキストが負のサンプルの履歴情報からどの程度の差があるかを学習する。
実験の結果,最大トレーサブル距離が一定の範囲にある場合に最もよい結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-02-26T08:29:25Z) - Provable Guarantees for Self-Supervised Deep Learning with Spectral
Contrastive Loss [72.62029620566925]
自己教師型学習の最近の研究は、対照的な学習パラダイムを頼りに、最先端の技術の進歩を遂げている。
我々の研究は、正の対の条件的独立性を仮定することなく、対照的な学習を分析する。
本稿では,人口増分グラフ上でスペクトル分解を行う損失を提案し,コントラスト学習目的として簡潔に記述することができる。
論文 参考訳(メタデータ) (2021-06-08T07:41:02Z) - Incremental False Negative Detection for Contrastive Learning [95.68120675114878]
本稿では,自己指導型コントラスト学習のための新たな偽陰性検出手法を提案する。
対照的な学習では、検出された偽陰性を明示的に除去する2つの戦略について議論する。
提案手法は,制限された計算内での複数のベンチマークにおいて,他の自己教師付きコントラスト学習フレームワークよりも優れる。
論文 参考訳(メタデータ) (2021-06-07T15:29:14Z) - Doubly Contrastive Deep Clustering [135.7001508427597]
本稿では、サンプルビューとクラスビューの両方でコントラスト損失を構築する新しい二重コントラストディープクラスタリング(DCDC)フレームワークを紹介します。
具体的には、サンプルビューに対して、元のサンプルとその拡張バージョンのクラス分布を正のサンプルペアとして設定する。
クラスビューでは、クラスのサンプル分布から正のペアと負のペアを構築します。
このように、2つのコントラスト損失は、サンプルとクラスレベルでのミニバッチサンプルのクラスタリング結果をうまく制限します。
論文 参考訳(メタデータ) (2021-03-09T15:15:32Z) - Contrastive Learning with Hard Negative Samples [80.12117639845678]
我々は, 厳密な陰性サンプルを選択するために, 教師なしサンプリング手法を新たに開発する。
このサンプリングの制限ケースは、各クラスをしっかりとクラスタ化し、可能な限り異なるクラスを遠くにプッシュする表現をもたらす。
提案手法は、複数のモードをまたいだダウンストリーム性能を改善し、実装するコード行数が少なく、計算オーバーヘッドを伴わない。
論文 参考訳(メタデータ) (2020-10-09T14:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。