論文の概要: InPars-Light: Cost-Effective Unsupervised Training of Efficient Rankers
- arxiv url: http://arxiv.org/abs/2301.02998v2
- Date: Wed, 21 Feb 2024 04:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 21:29:58.456215
- Title: InPars-Light: Cost-Effective Unsupervised Training of Efficient Rankers
- Title(参考訳): InPars-Light:効率的なランク付けの非教師なしトレーニング
- Authors: Leonid Boytsov, Preksha Patel, Vivek Sourabh, Riddhi Nisar, Sayani
Kundu, Ramya Ramanathan, Eric Nyberg
- Abstract要約: InPars-lightは、InParsの単純なyet効果の修正である。
InParsとは異なり、InPars-lightは7倍から100倍小さいランキングモデルを使用している。
InPars-lightは、プロプライエタリなGPT-3モデルよりも正確なランク付けを行う。
- 参考スコア(独自算出の注目度): 4.771736071778191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We carried out a reproducibility study of InPars, which is a method for
unsupervised training of neural rankers (Bonifacio et al., 2022). As a
by-product, we developed InPars-light, which is a simple-yet-effective
modification of InPars. Unlike InPars, InPars-light uses 7x-100x smaller
ranking models and only a freely available language model BLOOM, which -- as we
found out -- produced more accurate rankers compared to a proprietary GPT-3
model. On all five English retrieval collections (used in the original InPars
study) we obtained substantial (7%-30%) and statistically significant
improvements over BM25 (in nDCG and MRR) using only a 30M parameter six-layer
MiniLM-30M ranker and a single three-shot prompt. In contrast, in the InPars
study only a 100x larger monoT5-3B model consistently outperformed BM25,
whereas their smaller monoT5-220M model (which is still 7x larger than our
MiniLM ranker) outperformed BM25 only on MS MARCO and TREC DL 2020. In the same
three-shot prompting scenario, our 435M parameter DeBERTA v3 ranker was at par
with the 7x larger monoT5-3B (average gain over BM25 of 1.3 vs 1.32): In fact,
on three out of five datasets, DeBERTA slightly outperformed monoT5-3B.
Finally, these good results were achieved by re-ranking only 100 candidate
documents compared to 1000 used by Bonifacio et al. (2022). We believe that
InPars-light is the first truly cost-effective prompt-based unsupervised recipe
to train and deploy neural ranking models that outperform BM25. Our code and
data is publicly available. https://github.com/searchivarius/inpars_light/
- Abstract(参考訳): 神経ランチャーの教師なし訓練法であるinparsの再現性検討を行った(bonifacio et al., 2022)。
副産物として,InPars-lightを開発した。
InParsと異なり、InPars-lightは7x-100倍小さいランキングモデルを使用し、自由な言語モデルBLOOMしか使用していません。
元のInPars研究で使用した5つの英語検索コレクションについて, BM25(nDCGおよびMRR)に対して, 30Mパラメータの6層MiniLM-30Mロータと1つの3ショットプロンプトのみを用い, 統計的に有意な改善が得られた。
対照的に、InParsの研究では、100倍のMonoT5-3BモデルがBM25を一貫して上回り、より小さなMonoT5-220Mモデル(MiniLMランキングの7倍も大きい)は、MS MARCOとTREC DL 2020でのみBM25を上回りました。
同じ3ショットプロンプトシナリオでは、435mのパラメータであるdeberta v3rankerは、monot5-3bの7倍(平均で1.3対1.32のbm25を超える)と同等でした。
最終的にこれらの良い成果は、ボニファシオら(2022年)が使用した1000に比較して、わずか100の候補文書を再分類することで達成された。
InPars-lightは、BM25を上回るニューラルネットワークランキングモデルをトレーニングし、デプロイするための、真に費用効果の高いプロンプトベースの教師なしのレシピであると考えています。
私たちのコードとデータは公開されています。
https://github.com/searchivarius/inpars_light/
関連論文リスト
- Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - Remember what you did so you know what to do next [10.526351131118096]
我々は,初等科学実験のためのテキストゲームシミュレータであるScienceWorldにおいて,シミュレーションロボットが30の目標を達成する計画を立てる。
実験の結果、30種類のアクションに対して、パフォーマンスが広範囲に分散していることが示され、タスクに対する平均化が重大なパフォーマンス上の問題を隠蔽する可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-30T19:29:00Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - Evaluating Parameter Efficient Learning for Generation [32.52577462253145]
PERMとファインタニングを3つの新しい視点から比較する。
その結果、ドメイン内設定(a)では、PERMsがより少ないサンプルでトレーニングする際の微調整よりも優れた性能を示し、(b)より大きなPLMが存在することがわかった。
また、世代ごとの忠実度を比較し、特に小さなトレーニングセットにおいて、PERMsが微調整よりも忠実度を最大6%向上できることを示す。
論文 参考訳(メタデータ) (2022-10-25T00:14:48Z) - Understanding Performance of Long-Document Ranking Models through Comprehensive Evaluation and Leaderboarding [12.706825602291266]
我々は、長い文書のランク付けのためのTransformerモデルを評価し、それらを単純なFirstPベースラインと比較した。
MS MARCO, TREC DLs, Robust04 では FirstP は NDCG と MRR で 5% 以上の性能を示した。
これは、モデルが長いコンテキストを処理できないことによるものではなく、関連するパスの位置バイアスによるものであると推測した。
論文 参考訳(メタデータ) (2022-07-04T08:54:43Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z) - Billions of Parameters Are Worth More Than In-domain Training Data: A
case study in the Legal Case Entailment Task [4.186775801993103]
言語モデルにおけるパラメータのスケーリングは、以前のゼロショット結果のF1スコアを6ポイント以上向上させることを示す。
大規模な言語モデルによってもたらされる課題にも拘わらず、我々はゼロショットの monoT5-3b モデルが検索エンジンとして本番で使用されていることを実演する。
論文 参考訳(メタデータ) (2022-05-30T15:21:26Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - Beyond Distillation: Task-level Mixture-of-Experts for Efficient
Inference [17.97893143555333]
Sparse Mixture-of-Experts (MoE) は、トレーニング計算の比例的な増加を伴わずに、多言語翻訳モデルを数十億のパラメータに拡張する手法として成功している。
本研究では, 蒸留をバイパスするためのMoEモデルにおいて, 異なる粒度(トークン, 文, タスク)でのルーティング戦略について検討する。
WMTとWebスケールのデータセットの実験から、タスクレベルのルーティング(task-MoE)によって、大規模なスパースモデルからより小さく、準備の整ったサブネットワークを抽出できることが示唆された。
論文 参考訳(メタデータ) (2021-09-24T20:42:16Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。