論文の概要: Legal-Tech Open Diaries: Lesson learned on how to develop and deploy
light-weight models in the era of humongous Language Models
- arxiv url: http://arxiv.org/abs/2210.13086v1
- Date: Mon, 24 Oct 2022 10:08:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:53:36.805269
- Title: Legal-Tech Open Diaries: Lesson learned on how to develop and deploy
light-weight models in the era of humongous Language Models
- Title(参考訳): 法-Tech Open Diaries: 謙虚な言語モデルの時代における軽量モデルの開発と展開について学んだ教訓
- Authors: Stelios Maroudas, Sotiris Legkas, Prodromos Malakasiotis, Ilias
Chalkidis
- Abstract要約: 私たちは、現代の法律技術スタートアップのR&Dグループのステップに従い、モデル開発とデプロイメントに関する重要な洞察を示します。
我々は、契約書や規制書に適合する複数のドメイン固有の多言語LMを事前訓練することで、ゼロから始める。
5つのダウンストリームタスクからなる半公的な半私的法定ベンチマークにおいて,そのようなモデルのベンチマーク結果を示す。
- 参考スコア(独自算出の注目度): 10.086015702323971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of billion-parameter-sized Language Models (LMs), start-ups have
to follow trends and adapt their technology accordingly. Nonetheless, there are
open challenges since the development and deployment of large models comes with
a need for high computational resources and has economical consequences. In
this work, we follow the steps of the R&D group of a modern legal-tech start-up
and present important insights on model development and deployment. We start
from ground zero by pre-training multiple domain-specific multi-lingual LMs
which are a better fit to contractual and regulatory text compared to the
available alternatives (XLM-R). We present benchmark results of such models in
a half-public half-private legal benchmark comprising 5 downstream tasks
showing the impact of larger model size. Lastly, we examine the impact of a
full-scale pipeline for model compression which includes: a) Parameter Pruning,
b) Knowledge Distillation, and c) Quantization: The resulting models are much
more efficient without sacrificing performance at large.
- Abstract(参考訳): 十億のパラメータサイズの言語モデル(LM)の時代、スタートアップはトレンドに従い、それに応じて技術を適用する必要がある。
しかし、大規模モデルの開発と展開には高い計算資源が必要であり、経済的な結果をもたらすため、オープンな課題がある。
本研究では,最新の法律技術スタートアップであるr&dグループのステップに従い,モデルの開発と展開に関する重要な洞察を提示する。
xlm-rと比較して,契約文や規制文に適する複数のドメイン固有多言語lmsを事前学習することで,ゼロから始める。
5つのダウンストリームタスクからなる半公的な半私的法定ベンチマークにおいて,そのようなモデルのベンチマーク結果を示す。
最後に,モデル圧縮のためのフルスケールパイプラインの影響について検討する。
a)パラメータ・プルーニング
b) 知識蒸留,及び
c) 量子化: 結果のモデルは、大規模なパフォーマンスを犠牲にすることなく、はるかに効率的である。
関連論文リスト
- Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、特殊モデルから多目的基礎モデルへと移行してきた。
LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。
論文 参考訳(メタデータ) (2024-08-20T09:42:17Z) - Super Tiny Language Models [3.8353434814956517]
本稿では,スーパーティニー言語モデル(STLM)に着目した一連の研究成果を紹介する。
我々は,プーリング機構によるバイトレベルのトークン化,ウェイトタイリング,効率的なトレーニング戦略など,革新的な手法を探求する。
我々の最終的な目標は、広範囲のアプリケーションに対して、高性能な言語モデルをよりアクセスしやすく、実用的なものにすることです。
論文 参考訳(メタデータ) (2024-05-23T04:12:49Z) - MindLLM: Pre-training Lightweight Large Language Model from Scratch,
Evaluations and Domain Applications [46.337078949637345]
我々は、スクラッチから訓練されたバイリンガル軽量な大規模言語モデルの新しいシリーズであるMindLLMを紹介する。
大規模なモデル開発で得られた経験の詳細な説明が与えられ、プロセスのすべてのステップをカバーする。
MindLLMは、いくつかの公開ベンチマークにおいて、他のオープンソースの大規模モデルのパフォーマンスと一貫して一致または上回っている。
論文 参考訳(メタデータ) (2023-10-24T12:22:34Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large
Language Models [11.57282859281814]
異なる知識レベルと属性戦略を考慮し、最良の方法で10の微調整されたモデルのうち8つを正確に追跡できることに気付きます。
論文 参考訳(メタデータ) (2023-06-15T17:42:48Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow [14.422129911404472]
Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。
我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-26T11:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。