Fugu-MT 論文翻訳(概要): Noisy Self-Training with Synthetic Queries for Dense Retrieval

論文の概要: Noisy Self-Training with Synthetic Queries for Dense Retrieval

arxiv url: http://arxiv.org/abs/2311.15563v1
Date: Mon, 27 Nov 2023 06:19:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 17:07:14.880628
Title: Noisy Self-Training with Synthetic Queries for Dense Retrieval
Title（参考訳）: 密度検索のための合成クエリによるノイズ自己学習
Authors: Fan Jiang, Tom Drummond, Trevor Cohn
Abstract要約: 合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。実験結果から,本手法は既存手法よりも一貫した改善が得られた。我々の手法はデータ効率が良く、競争のベースラインより優れています。
参考スコア（独自算出の注目度）: 49.49928764695172
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although existing neural retrieval models reveal promising results when training data is abundant and the performance keeps improving as training data increases, collecting high-quality annotated data is prohibitively costly. To this end, we introduce a novel noisy self-training framework combined with synthetic queries, showing that neural retrievers can be improved in a self-evolution manner with no reliance on any external models. Experimental results show that our method improves consistently over existing methods on both general-domain (e.g., MS-MARCO) and out-of-domain (i.e., BEIR) retrieval benchmarks. Extra analysis on low-resource settings reveals that our method is data efficient and outperforms competitive baselines, with as little as 30% of labelled training data. Further extending the framework for reranker training demonstrates that the proposed method is general and yields additional gains on tasks of diverse domains.\footnote{Source code is available at \url{https://github.com/Fantabulous-J/Self-Training-DPR}}
Abstract（参考訳）: 既存のニューラル検索モデルでは、トレーニングデータが豊富で、トレーニングデータの増加とともにパフォーマンスが向上し続けると有望な結果が得られるが、高品質な注釈データの収集は極めてコストがかかる。そこで本研究では,ニューラルレトリバーを外部モデルに頼らずに自己進化的に改善できることを示す,新しいノイズの多い自己学習フレームワークを合成クエリと組み合わせて導入する。実験結果から,本手法は一般ドメイン (ms-marco) および外部ドメイン (beir) の検索ベンチマークにおいて,既存の手法に対して一貫して改善することが示された。低リソース環境での余分な分析により,本手法はトレーニングデータの30%程度をラベル付けした上で,データ効率が高く,競争ベースラインを上回っていることが明らかとなった。再ランカトレーニングの枠組みをさらに拡張することで,提案手法が一般化され,多様な領域のタスクにさらなる利得が得られることを示す。 \footnote{Source code is available at \url{https://github.com/Fantabulous-J/Self-Training-DPR}}

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
RL-Selector: Reinforcement Learning-Guided Data Selection via Redundancy Assessment [10.284993431741377]
サンプル間の関係に基づいてサンプル冗長性を定量化する,エプシロン・サンプル被覆の概念を導入する。我々は、強化学習プロセスとしてデータ選択を再構成し、RLセレクタを提案する。我々の手法は、既存の最先端のベースラインを一貫して上回る。
論文参考訳（メタデータ） (2025-06-26T06:28:56Z)
Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-04-20T06:45:16Z)
ToReMi: Topic-Aware Data Reweighting for Dynamic Pre-Training Data Selection [28.75333303894706]
ToReMiは、トピックの関連や観察された学習パターンに応じてトレーニングサンプル重量を調整する新しいフレームワークである。実験の結果,ToReMiの変種は従来の事前学習手法よりも優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2025-04-01T12:06:42Z)
DUET: Optimizing Training Data Mixtures via Feedback from Unseen Evaluation Tasks [40.91931801667421]
本稿では,ベイズ最適化を用いたデータ選択手法を組み込むことで,フィードバックループを活用できるDUETという,グローバル・ローカルなアルゴリズムを提案する。その結果、DUETは、データドメインのプールから混合したトレーニングデータを効率よく洗練し、目に見えない評価タスクにおけるモデルの性能を最大化することができる。
論文参考訳（メタデータ） (2025-02-01T01:52:32Z)
Multi-Armed Bandit Approach for Optimizing Training on Synthetic Data [7.603659241572307]
動的ユーザビリティ指標と組み合わせた UCB ベースのトレーニング手法を提案する。提案手法は,合成画像と対応する実・合成データセットからの低レベル・高レベル情報を統合する。提案手法は, ユーザビリティに基づいて, 合成画像のランク付けに有効な方法であることを示す。
論文参考訳（メタデータ） (2024-12-06T23:36:36Z)
Weak Reward Model Transforms Generative Models into Robust Causal Event Extraction Systems [17.10762463903638]
我々は人的評価を近似するために評価モデルを訓練し、高い合意を得る。そこで本研究では,アノテートデータの一部を用いて評価モデルを訓練する弱強監督手法を提案する。
論文参考訳（メタデータ） (2024-06-26T10:48:14Z)
DUQGen: Effective Unsupervised Domain Adaptation of Neural Rankers by Diversifying Synthetic Query Generation [8.661419320202787]
MS-MARCOのような大規模タスク固有のトレーニングデータで事前訓練された最先端のニューラルローダーは、ドメイン適応なしで様々なランク付けタスクに強いパフォーマンスを示すことが示されている(ゼロショットとも呼ばれる)。本稿では,従来の文献における重要なギャップに対処する,ランク付けのための教師なしドメイン適応手法であるDUQGenを提案する。
論文参考訳（メタデータ） (2024-04-03T05:50:42Z)
Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:22:41Z)
Take the Bull by the Horns: Hard Sample-Reweighted Continual Training Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文参考訳（メタデータ） (2024-02-22T04:10:57Z)
Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文参考訳（メタデータ） (2023-12-27T09:03:43Z)
Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文参考訳（メタデータ） (2023-11-16T10:42:58Z)
Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-06T14:49:59Z)
Learning Fast Sample Re-weighting Without Reward Data [41.92662851886547]
本稿では,新たな報酬データを必要としない学習ベース高速サンプル再重み付け手法を提案する。実験により,提案手法は,ラベルノイズや長い尾の認識に関する芸術的状況と比較して,競争力のある結果が得られることを示した。
論文参考訳（メタデータ） (2021-09-07T17:30:56Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。