論文の概要: Optimal Size-Performance Tradeoffs: Weighing PoS Tagger Models
- arxiv url: http://arxiv.org/abs/2104.07951v1
- Date: Fri, 16 Apr 2021 08:02:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 23:53:44.649240
- Title: Optimal Size-Performance Tradeoffs: Weighing PoS Tagger Models
- Title(参考訳): 最適サイズ・パフォーマンストレードオフ:PoSタガーモデルの検討
- Authors: Magnus Jacobsen, Mikkel H. S{\o}rensen, Leon Derczynski
- Abstract要約: 機械学習ベースのNLPパフォーマンスの改善は、より大きなモデルとより複雑なコードでしばしば紹介される。
より優れたスコアは、より大きなツールのコストで得られ、より大きなモデルは、トレーニングと推論時間の間により多くのものを必要とします。
本稿では,モデルのサイズを計測し,これをモデルの性能と比較する手法を提案する。
- 参考スコア(独自算出の注目度): 5.092028049119383
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Improvement in machine learning-based NLP performance are often presented
with bigger models and more complex code. This presents a trade-off: better
scores come at the cost of larger tools; bigger models tend to require more
during training and inference time. We present multiple methods for measuring
the size of a model, and for comparing this with the model's performance.
In a case study over part-of-speech tagging, we then apply these techniques
to taggers for eight languages and present a novel analysis identifying which
taggers are size-performance optimal. Results indicate that some classical
taggers place on the size-performance skyline across languages. Further,
although the deep models have highest performance for multiple scores, it is
often not the most complex of these that reach peak performance.
- Abstract(参考訳): 機械学習ベースのNLPパフォーマンスの改善は、より大きなモデルとより複雑なコードでしばしば示される。
より優れたスコアは、より大きなツールのコストで得られ、より大きなモデルは、トレーニングと推論時間の間により多くのものを必要とします。
本稿では,モデルのサイズを計測し,モデルの性能と比較する複数の手法を提案する。
そこで本研究では,8言語を対象としたタガーに適用し,サイズパフォーマンスに最適なタガーを識別する新しい分析手法を提案する。
その結果、いくつかの古典的タガーは、言語間のサイズパフォーマンスのスカイラインに置かれていることがわかった。
さらに、深層モデルは複数のスコアで最高のパフォーマンスを持つが、ピーク性能に達する最も複雑なモデルではないことが多い。
関連論文リスト
- Scalable Ensembling For Mitigating Reward Overoptimisation [24.58937616758007]
ヒューマンフィードバックからの強化学習は、強力な命令追従モデルのための言語モデリングにおける大幅な進歩を可能にした。
ポリシーが学習したプロキシ"報酬モデルに過度に適合する傾向にあるため、これらのモデルの整合性は依然として急進的な課題である。
論文 参考訳(メタデータ) (2024-06-03T05:46:53Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained
Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。
我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文 参考訳(メタデータ) (2022-10-13T15:47:09Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。