論文の概要: Negative Sampling Techniques in Information Retrieval: A Survey
- arxiv url: http://arxiv.org/abs/2603.18005v1
- Date: Fri, 09 Jan 2026 01:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.377626
- Title: Negative Sampling Techniques in Information Retrieval: A Survey
- Title(参考訳): 情報検索におけるネガティブサンプリング手法の検討
- Authors: Laurin Wischounig, Abdelrahman Abdallah, Adam Jatowt,
- Abstract要約: このサーベイサーベイでは、35のセミナー論文を合成し、高密度赤外線における負のサンプリング技術の概要を概説する。
私たちのユニークな貢献は、最新のNLPアプリケーションと、最近のLarge Language Model(LLM)駆動のメソッドを含めることです。
ランダム・静的・動的マイニング・合成データセットを含む手法を分類する分類法を提案する。
- 参考スコア(独自算出の注目度): 22.82938587928396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information Retrieval (IR) is fundamental to many modern NLP applications. The rise of dense retrieval (DR), using neural networks to learn semantic vector representations, has significantly advanced IR performance. Central to training effective dense retrievers through contrastive learning is the selection of informative negative samples. Synthesizing 35 seminal papers, this survey provides a comprehensive and up-to-date overview of negative sampling techniques in dense IR. Our unique contribution is the focus on modern NLP applications and the inclusion of recent Large Language Model (LLM)-driven methods, an area absent in prior reviews. We propose a taxonomy that categorizes techniques including random, static/dynamically mined, and synthetic datasets. We then analyze these approaches with respect to trade-offs between effectiveness, computational cost, and implementation difficulty. The survey concludes by outlining current challenges and promising future directions for the use of LLM-generated synthetic data.
- Abstract(参考訳): 情報検索(Information Retrieval, IR)は、現代の多くのNLPアプリケーションの基本である。
ニューラルネットワークを用いて意味ベクトル表現を学習する高密度検索(DR)の台頭は、赤外線性能を著しく向上させた。
対照的な学習を通して効果的な高密度レトリバーを訓練することの中心は、情報的負のサンプルの選択である。
35のセミナー論文を合成し、高密度赤外線における正のサンプリング手法の包括的かつ最新の概観を提供する。
私たちのユニークな貢献は、最新のNLPアプリケーションと、最近のLarge Language Model (LLM) 駆動のメソッドを含めることです。
ランダム・静的・動的マイニング・合成データセットを含む手法を分類する分類法を提案する。
次に、有効性、計算コスト、実装難易度の間のトレードオフについて、これらのアプローチを分析する。
この調査は、LLM生成合成データの利用に関する現在の課題と将来的な方向性を概説することで締めくくっている。
関連論文リスト
- Model-agnostic Mitigation Strategies of Data Imbalance for Regression [0.0]
データ不均衡は、回帰タスクにおいて広範囲にわたる課題として持続し、モデルパフォーマンスのバイアスを導入し、予測信頼性を損なう。
既存のサンプリング手法を構築・改善する高度な緩和手法を提案する。
モデルのアンサンブル(不均衡緩和で訓練されたモデルと、非バランスで訓練されたモデル)の構築は、これらの負の効果を著しく減少させることを実証する。
論文 参考訳(メタデータ) (2025-06-02T09:46:08Z) - SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [94.33978856270268]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。
既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。
本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:05:02Z) - Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning [23.098551349745815]
大規模言語モデル(LLM)を用いたパイプラインベースのデータ拡張手法を提案する。
本稿では,非教師なし文の埋め込みを改善するために,ガウス型勾配支援コントラスト文埋め込み(GCSE)モデルを提案する。
実験結果から,本手法は意味的テキスト類似性タスクにおける最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2024-09-19T16:29:58Z) - Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡な分類と急激な相関は、データサイエンスと機械学習における一般的な課題である。
近年の進歩は、大規模言語モデルの柔軟性と生成能力を生かして合成サンプルを生成することを提案した。
本稿では,不均衡な分類とスプリアス相関に対処する上で,合成試料の役割を体系的に研究する新たな理論基盤を開発する。
論文 参考訳(メタデータ) (2024-06-05T21:24:26Z) - IR2: Information Regularization for Information Retrieval [2.3420045370973828]
本稿では,情報検索のための情報正規化手法IR2について述べる。
実験結果から,我々の正則化手法は,検討したタスクにおいて,従来の合成クエリ生成手法より優れているだけでなく,コストを最大50%削減できることが示唆された。
論文 参考訳(メタデータ) (2024-02-25T21:25:06Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文 参考訳(メタデータ) (2023-09-05T14:06:33Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。