論文の概要: Noisy Self-Training with Synthetic Queries for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2311.15563v1
- Date: Mon, 27 Nov 2023 06:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:07:14.880628
- Title: Noisy Self-Training with Synthetic Queries for Dense Retrieval
- Title(参考訳): 密度検索のための合成クエリによるノイズ自己学習
- Authors: Fan Jiang, Tom Drummond, Trevor Cohn
- Abstract要約: 合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
- 参考スコア(独自算出の注目度): 49.49928764695172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although existing neural retrieval models reveal promising results when
training data is abundant and the performance keeps improving as training data
increases, collecting high-quality annotated data is prohibitively costly. To
this end, we introduce a novel noisy self-training framework combined with
synthetic queries, showing that neural retrievers can be improved in a
self-evolution manner with no reliance on any external models. Experimental
results show that our method improves consistently over existing methods on
both general-domain (e.g., MS-MARCO) and out-of-domain (i.e., BEIR) retrieval
benchmarks. Extra analysis on low-resource settings reveals that our method is
data efficient and outperforms competitive baselines, with as little as 30% of
labelled training data. Further extending the framework for reranker training
demonstrates that the proposed method is general and yields additional gains on
tasks of diverse domains.\footnote{Source code is available at
\url{https://github.com/Fantabulous-J/Self-Training-DPR}}
- Abstract(参考訳): 既存のニューラル検索モデルでは、トレーニングデータが豊富で、トレーニングデータの増加とともにパフォーマンスが向上し続けると有望な結果が得られるが、高品質な注釈データの収集は極めてコストがかかる。
そこで本研究では,ニューラルレトリバーを外部モデルに頼らずに自己進化的に改善できることを示す,新しいノイズの多い自己学習フレームワークを合成クエリと組み合わせて導入する。
実験結果から,本手法は一般ドメイン (ms-marco) および外部ドメイン (beir) の検索ベンチマークにおいて,既存の手法に対して一貫して改善することが示された。
低リソース環境での余分な分析により,本手法はトレーニングデータの30%程度をラベル付けした上で,データ効率が高く,競争ベースラインを上回っていることが明らかとなった。
再ランカトレーニングの枠組みをさらに拡張することで,提案手法が一般化され,多様な領域のタスクにさらなる利得が得られることを示す。
\footnote{Source code is available at \url{https://github.com/Fantabulous-J/Self-Training-DPR}}
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Diffusion-based Neural Network Weights Generation [85.6725307453325]
データセット条件付き事前学習重み抽出による効率よく適応的な伝達学習手法を提案する。
具体的には、ニューラルネットワークの重みを再構築できる変分オートエンコーダを備えた潜時拡散モデルを用いる。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Exploring Learning Complexity for Downstream Data Pruning [9.526877053855998]
本稿では,学習複雑性(LC)を分類・回帰タスクのスコアリング機能として扱うことを提案する。
大規模言語モデルの微調整を行うため,本手法は安定収束による最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - Group Distributionally Robust Dataset Distillation with Risk
Minimization [18.07189444450016]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
数値実験により,その有効一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Learning Fast Sample Re-weighting Without Reward Data [41.92662851886547]
本稿では,新たな報酬データを必要としない学習ベース高速サンプル再重み付け手法を提案する。
実験により,提案手法は,ラベルノイズや長い尾の認識に関する芸術的状況と比較して,競争力のある結果が得られることを示した。
論文 参考訳(メタデータ) (2021-09-07T17:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。