論文の概要: Noisy Self-Training with Synthetic Queries for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2311.15563v1
- Date: Mon, 27 Nov 2023 06:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:07:14.880628
- Title: Noisy Self-Training with Synthetic Queries for Dense Retrieval
- Title(参考訳): 密度検索のための合成クエリによるノイズ自己学習
- Authors: Fan Jiang, Tom Drummond, Trevor Cohn
- Abstract要約: 合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
- 参考スコア(独自算出の注目度): 49.49928764695172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although existing neural retrieval models reveal promising results when
training data is abundant and the performance keeps improving as training data
increases, collecting high-quality annotated data is prohibitively costly. To
this end, we introduce a novel noisy self-training framework combined with
synthetic queries, showing that neural retrievers can be improved in a
self-evolution manner with no reliance on any external models. Experimental
results show that our method improves consistently over existing methods on
both general-domain (e.g., MS-MARCO) and out-of-domain (i.e., BEIR) retrieval
benchmarks. Extra analysis on low-resource settings reveals that our method is
data efficient and outperforms competitive baselines, with as little as 30% of
labelled training data. Further extending the framework for reranker training
demonstrates that the proposed method is general and yields additional gains on
tasks of diverse domains.\footnote{Source code is available at
\url{https://github.com/Fantabulous-J/Self-Training-DPR}}
- Abstract(参考訳): 既存のニューラル検索モデルでは、トレーニングデータが豊富で、トレーニングデータの増加とともにパフォーマンスが向上し続けると有望な結果が得られるが、高品質な注釈データの収集は極めてコストがかかる。
そこで本研究では,ニューラルレトリバーを外部モデルに頼らずに自己進化的に改善できることを示す,新しいノイズの多い自己学習フレームワークを合成クエリと組み合わせて導入する。
実験結果から,本手法は一般ドメイン (ms-marco) および外部ドメイン (beir) の検索ベンチマークにおいて,既存の手法に対して一貫して改善することが示された。
低リソース環境での余分な分析により,本手法はトレーニングデータの30%程度をラベル付けした上で,データ効率が高く,競争ベースラインを上回っていることが明らかとなった。
再ランカトレーニングの枠組みをさらに拡張することで,提案手法が一般化され,多様な領域のタスクにさらなる利得が得られることを示す。
\footnote{Source code is available at \url{https://github.com/Fantabulous-J/Self-Training-DPR}}
関連論文リスト
- Weak Reward Model Transforms Generative Models into Robust Causal Event Extraction Systems [17.10762463903638]
我々は人的評価を近似するために評価モデルを訓練し、高い合意を得る。
そこで本研究では,アノテートデータの一部を用いて評価モデルを訓練する弱強監督手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T10:48:14Z) - DUQGen: Effective Unsupervised Domain Adaptation of Neural Rankers by Diversifying Synthetic Query Generation [8.661419320202787]
MS-MARCOのような大規模タスク固有のトレーニングデータで事前訓練された最先端のニューラルローダーは、ドメイン適応なしで様々なランク付けタスクに強いパフォーマンスを示すことが示されている(ゼロショットとも呼ばれる)。
本稿では,従来の文献における重要なギャップに対処する,ランク付けのための教師なしドメイン適応手法であるDUQGenを提案する。
論文 参考訳(メタデータ) (2024-04-03T05:50:42Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Learning Fast Sample Re-weighting Without Reward Data [41.92662851886547]
本稿では,新たな報酬データを必要としない学習ベース高速サンプル再重み付け手法を提案する。
実験により,提案手法は,ラベルノイズや長い尾の認識に関する芸術的状況と比較して,競争力のある結果が得られることを示した。
論文 参考訳(メタデータ) (2021-09-07T17:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。