論文の概要: Billions of Parameters Are Worth More Than In-domain Training Data: A
case study in the Legal Case Entailment Task
- arxiv url: http://arxiv.org/abs/2205.15172v1
- Date: Mon, 30 May 2022 15:21:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 16:16:30.213633
- Title: Billions of Parameters Are Worth More Than In-domain Training Data: A
case study in the Legal Case Entailment Task
- Title(参考訳): 数十億のパラメータがドメイン内トレーニングデータより価値がある:法ケースエンターテイメントタスクにおけるケーススタディ
- Authors: Guilherme Moraes Rosa and Luiz Bonifacio and Vitor Jeronymo and Hugo
Abonizio and Roberto Lotufo and Rodrigo Nogueira
- Abstract要約: 言語モデルにおけるパラメータのスケーリングは、以前のゼロショット結果のF1スコアを6ポイント以上向上させることを示す。
大規模な言語モデルによってもたらされる課題にも拘わらず、我々はゼロショットの monoT5-3b モデルが検索エンジンとして本番で使用されていることを実演する。
- 参考スコア(独自算出の注目度): 4.186775801993103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that language models scaled to billions of parameters,
such as GPT-3, perform remarkably well in zero-shot and few-shot scenarios. In
this work, we experiment with zero-shot models in the legal case entailment
task of the COLIEE 2022 competition. Our experiments show that scaling the
number of parameters in a language model improves the F1 score of our previous
zero-shot result by more than 6 points, suggesting that stronger zero-shot
capability may be a characteristic of larger models, at least for this task.
Our 3B-parameter zero-shot model outperforms all models, including ensembles,
in the COLIEE 2021 test set and also achieves the best performance of a single
model in the COLIEE 2022 competition, second only to the ensemble composed of
the 3B model itself and a smaller version of the same model. Despite the
challenges posed by large language models, mainly due to latency constraints in
real-time applications, we provide a demonstration of our zero-shot monoT5-3b
model being used in production as a search engine, including for legal
documents. The code for our submission and the demo of our system are available
at https://github.com/neuralmind-ai/coliee and
https://neuralsearchx.neuralmind.ai, respectively.
- Abstract(参考訳): 最近の研究によると、GPT-3のような数十億のパラメータにスケールされた言語モデルは、ゼロショットや少数ショットのシナリオで驚くほどよく機能している。
本研究では,COLIEE 2022コンペティションにおける訴訟包括作業におけるゼロショットモデルの実験を行った。
実験により、言語モデルにおけるパラメータ数をスケーリングすることで、以前のゼロショット結果のf1スコアを6ポイント以上改善できることが示され、少なくともこのタスクでは、より強力なゼロショット能力がより大きなモデルの特徴である可能性が示唆された。
3bパラメータのゼロショットモデルは、co coliee 2021テストセットにおけるアンサンブルを含む全てのモデルよりも優れており、co coliee 2022コンペティションにおいて、1つのモデルの最高のパフォーマンスを達成している。
大規模言語モデルがもたらす課題は,主にリアルタイムアプリケーションにおける遅延制約によるものだが,本モデルが検索エンジンとして本番環境で使用されていることを示す。
私たちの提出コードとシステムのデモは、それぞれhttps://github.com/neuralmind-ai/colieeとhttps://neuralsearchx.neuralmind.aiで閲覧できます。
関連論文リスト
- Enabling Small Models for Zero-Shot Classification through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。
7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文 参考訳(メタデータ) (2024-08-21T09:08:26Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - Go-tuning: Improving Zero-shot Learning Abilities of Smaller Language
Models [23.818751895205132]
Go-tuningは幾何学誘導型自己教師型学習法である。
ゴーチューニングは、T5-XL(3B)のような大きな言語モデルと比較して、T5-小(80M)の競合ゼロショット結果を可能にする。
論文 参考訳(メタデータ) (2022-12-20T17:36:49Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - Zero-Shot Learners for Natural Language Understanding via a Unified
Multiple Choice Perspective [26.41585967095811]
ゼロショット学習は、与えられたタスクでモデルをトレーニングすることを目的としており、追加のトレーニングなしで新しい学習タスクに対処できる。
提案手法は、ゼロショット学習を複数選択タスクに変換し、FLANなどの大規模生成モデルで一般的に使用される問題を回避する。
提案手法は,いくつかのベンチマークにおいて最先端の性能を示し,自然言語推論やテキスト分類といったタスクに対して良好な結果をもたらす。
論文 参考訳(メタデータ) (2022-10-16T17:24:06Z) - Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks [77.90900650816046]
ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
論文 参考訳(メタデータ) (2022-10-01T04:08:50Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - To Tune or Not To Tune? Zero-shot Models for Legal Case Entailment [4.9069311006119865]
多様なデータセットに微調整された事前訓練された言語モデルは、様々なドメイン外タスクにうまく転送可能であることを示す。
我々は,COLIEE 2021の判例提出作業に参加し,対象領域に適応しないモデルを用いた。
本実験は,事前学習型言語モデルの新しいパラダイムにおいて,直感に反する結果であることを確認した。
論文 参考訳(メタデータ) (2022-02-07T13:02:48Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。