論文の概要: YES SIR!Optimizing Semantic Space of Negatives with Self-Involvement
Ranker
- arxiv url: http://arxiv.org/abs/2109.06436v1
- Date: Tue, 14 Sep 2021 04:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:35:19.822415
- Title: YES SIR!Optimizing Semantic Space of Negatives with Self-Involvement
Ranker
- Title(参考訳): はい!
自己関与型ランサーによる負のセマンティック空間の最適化
- Authors: Ruizhi Pu, Xinyu Zhang, Ruofei Lai, Zikai Guo, Yinxia Zhang, Hao
Jiang, Yongkang Wu, Yantao Jia, Zhicheng Dou, Zhao Cao
- Abstract要約: Self-Involvement Ranker (SIR)は、事前訓練されたモデルのための軽量で一般的なフレームワークである。
SIRは、高品質なランキングモデルをトレーニングするための高品質なセマンティック空間を構築するために、ハードネガティブサンプルを動的に選択する。
本手法は2021年5月にMS MARCO Documentランキングのリーダーボード上で匿名でSOTAモデルとなった。
- 参考スコア(独自算出の注目度): 13.890626391658836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained model such as BERT has been proved to be an effective tool for
dealing with Information Retrieval (IR) problems. Due to its inspiring
performance, it has been widely used to tackle with real-world IR problems such
as document ranking. Recently, researchers have found that selecting "hard"
rather than "random" negative samples would be beneficial for fine-tuning
pre-trained models on ranking tasks. However, it remains elusive how to
leverage hard negative samples in a principled way. To address the
aforementioned issues, we propose a fine-tuning strategy for document ranking,
namely Self-Involvement Ranker (SIR), to dynamically select hard negative
samples to construct high-quality semantic space for training a high-quality
ranking model. Specifically, SIR consists of sequential compressors implemented
with pre-trained models. Front compressor selects hard negative samples for
rear compressor. Moreover, SIR leverages supervisory signal to adaptively
adjust semantic space of negative samples. Finally, supervisory signal in rear
compressor is computed based on condition probability and thus can control
sample dynamic and further enhance the model performance. SIR is a lightweight
and general framework for pre-trained models, which simplifies the ranking
process in industry practice. We test our proposed solution on MS MARCO with
document ranking setting, and the results show that SIR can significantly
improve the ranking performance of various pre-trained models. Moreover, our
method became the new SOTA model anonymously on MS MARCO Document ranking
leaderboard in May 2021.
- Abstract(参考訳): BERTのような事前学習モデルは、情報検索(IR)問題に対処するための有効なツールであることが証明されている。
インスピレーションを受けたパフォーマンスのため、文書ランキングなどの現実世界のIR問題に対処するために広く使用されている。
近年、研究者は「ランダム」陰性サンプルではなく「ハード」を選択することは、ランキングタスクの微調整済みモデルにとって有益であることを示した。
しかし、固い負のサンプルを原則的に利用する方法はいまだ解明されていない。
上記の問題に対処するために,文書ランク付けのための微調整戦略,すなわちsir(self-involvement ranker)を提案し,高品質ランキングモデルを訓練するための高品質な意味空間を構築するために,ハードネガティブなサンプルを動的に選択する。
具体的には、SIRは、事前訓練されたモデルで実装された逐次圧縮機で構成される。
前部圧縮機は後部圧縮機の硬陰サンプルを選択する。
さらに、sirは監視信号を利用して、負のサンプルの意味空間を適応的に調整する。
最後に、後部圧縮機の監視信号を条件確率に基づいて算出し、サンプルの動的制御とモデル性能の向上を図る。
SIRは、事前訓練されたモデルのための軽量で一般的なフレームワークであり、業界プラクティスのランキングプロセスを簡単にする。
提案手法を文書ランキング設定でMS MARCO上で検証し,SIRが事前学習した各種モデルのランキング性能を大幅に向上できることを示す。
さらに,2021年5月にはMS MARCO文書ランキングのリーダーボード上で,新たなSOTAモデルとなった。
関連論文リスト
- Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。
平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。
また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文 参考訳(メタデータ) (2024-07-03T03:10:24Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Ranking & Reweighting Improves Group Distributional Robustness [14.021069321266516]
本研究では,DRU(Discounted Rank Upweighting)と呼ばれるランキングベースのトレーニング手法を提案し,テストデータ上で強力なOOD性能を示すモデルを学習する。
いくつかの合成および実世界のデータセットの結果は、群分布シフトに頑健なモデルの選択と学習において、グループレベルの(ソフトミニマックスと異なり)アプローチの優れた能力を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-05-09T20:37:16Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Conditional Variational Autoencoder with Balanced Pre-training for
Generative Adversarial Networks [11.46883762268061]
クラス不均衡は、各クラスの画像数が大きく異なる画像分類を含む多くの実世界のアプリケーションで発生する。
不均衡なデータでは、GAN(Generative Adversarial Network)は多数派に傾いている。
本稿では, リアルな合成画像を生成するための拡張ツールとして, CAPGAN (Geneversarative Adrial Networks) のためのバランス付き事前学習機能を備えた新しい変分オートエンコーダを提案する。
論文 参考訳(メタデータ) (2022-01-13T06:52:58Z) - Context-aware Adversarial Training for Name Regularity Bias in Named
Entity Recognition [8.344476599818826]
NERモデルの正規性バイアスを診断するための新しいテストベッドであるNRBを紹介する。
我々の結果は、我々がテストしたすべての最先端モデルにそのようなバイアスがあることを示唆している。
本稿では,学習可能な敵対的ノイズを一部のエンティティに付加する,新しいモデルに依存しない訓練手法を提案する。
論文 参考訳(メタデータ) (2021-07-24T13:55:35Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。