論文の概要: Influence Guided Sampling for Domain Adaptation of Text Retrievers
- arxiv url: http://arxiv.org/abs/2601.21759v1
- Date: Thu, 29 Jan 2026 14:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.881504
- Title: Influence Guided Sampling for Domain Adaptation of Text Retrievers
- Title(参考訳): テキストレトリバーの領域適応に対するガイドサンプリングの影響
- Authors: Meet Doshi, Vishwajeet Kumar, Yulong Li, Jaydeep Sen,
- Abstract要約: 汎用的なオープンドメイン密度検索システムは、通常、コーパスとサーチタスクの大規模なエクレクティックな混合で訓練される。
トレーニングデータサンプリング戦略がモデルの性能に大きな影響を与えることはよく知られている。
Inf-DDSは、インフルエンサーベース報酬信号によって導かれるトレーニングデータセットを適応的に反映する、新しい強化学習駆動サンプリングフレームワークである。
- 参考スコア(独自算出の注目度): 14.654097843593098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose open-domain dense retrieval systems are usually trained with a large, eclectic mix of corpora and search tasks. How should these diverse corpora and tasks be sampled for training? Conventional approaches sample them uniformly, proportional to their instance population sizes, or depend on human-level expert supervision. It is well known that the training data sampling strategy can greatly impact model performance. However, how to find the optimal strategy has not been adequately studied in the context of embedding models. We propose Inf-DDS, a novel reinforcement learning driven sampling framework that adaptively reweighs training datasets guided by influence-based reward signals and is much more lightweight with respect to GPU consumption. Our technique iteratively refines the sampling policy, prioritizing datasets that maximize model performance on a target development set. We evaluate the efficacy of our sampling strategy on a wide range of text retrieval tasks, demonstrating strong improvements in retrieval performance and better adaptation compared to existing gradient-based sampling methods, while also being 1.5x to 4x cheaper in GPU compute. Our sampling strategy achieves a 5.03 absolute NDCG@10 improvement while training a multilingual bge-m3 model and an absolute NDCG@10 improvement of 0.94 while training all-MiniLM-L6-v2, even when starting from expert-assigned weights on a large pool of training datasets.
- Abstract(参考訳): 汎用的なオープンドメイン密度検索システムは、通常、コーパスとサーチタスクの大規模なエクレクティックな混合で訓練される。
これらの多様なコーパスとタスクをトレーニングのためにどのようにサンプリングすべきか?
従来のアプローチでは、それらを一様にサンプリングし、インスタンスのサイズに比例するか、人間レベルの専門家監督に依存している。
トレーニングデータサンプリング戦略がモデルの性能に大きな影響を与えることはよく知られている。
しかし, 組込みモデルでは, 最適戦略の探索方法が十分に研究されていない。
Inf-DDSは、インフルエンサーベース報酬信号によって導かれるトレーニングデータセットを適応的に再編集する、新しい強化学習駆動サンプリングフレームワークであり、GPU消費に関してはるかに軽量である。
本手法はサンプリングポリシーを反復的に洗練し,ターゲット開発セットにおけるモデル性能を最大化するデータセットの優先順位付けを行う。
我々は,テキスト検索タスクにおけるサンプリング戦略の有効性を評価し,従来の勾配に基づくサンプリング手法と比較して,検索性能と適応性の向上が強く,GPU計算では1.5倍から4倍も安価であることを示した。
我々のサンプリング戦略は、多言語bge-m3モデルのトレーニング中に5.03絶対NDCG@10の改善を実現し、訓練データセットの大規模プールで専門家指定重量から始める場合でも、全MiniLM-L6-v2のトレーニング中に0.94絶対NDCG@10の改善を実現している。
関連論文リスト
- Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning [22.242445543184264]
我々は,標準トレーニングループ内でサンプルユーティリティを完全に正確に推定する,効率的な反復的データ選択フレームワークであるLEADを提案する。
実験の結果、LEADは最先端の手法を著しく上回り、平均モデル性能は6.1%-10.8%向上し、トレーニングデータの2.5%しか使用せず、全体のトレーニング時間を5-10倍短縮した。
論文 参考訳(メタデータ) (2025-05-12T10:57:51Z) - Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。
最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。
基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文 参考訳(メタデータ) (2025-01-25T07:21:50Z) - BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。
本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。
以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-13T16:17:21Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Sampling Through the Lens of Sequential Decision Making [9.101505546901999]
我々はアダプティブ・サンプル・ウィズ・リワード(ASR)と呼ばれる報酬誘導型サンプリング戦略を提案する。
提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。
情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-17T04:01:29Z) - Dataset Pruning: Reducing Training Data by Examining Generalization
Influence [30.30255670341501]
すべてのトレーニングデータは、モデルのパフォーマンスに寄与しますか?
モデルのパフォーマンスを著しく犠牲にすることなく、プロキシトレーニングセットとして、トレーニングデータ全体から最小限のサブセットを構築するには、どうすればよいのか?
論文 参考訳(メタデータ) (2022-05-19T05:36:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。