論文の概要: LexGPT 0.1: pre-trained GPT-J models with Pile of Law
- arxiv url: http://arxiv.org/abs/2306.05431v1
- Date: Mon, 5 Jun 2023 08:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-18 13:16:37.172382
- Title: LexGPT 0.1: pre-trained GPT-J models with Pile of Law
- Title(参考訳): LexGPT0.1:Pile of Lawによる事前訓練GPT-Jモデル
- Authors: Jieh-Sheng Lee
- Abstract要約: 本研究は,法域に特化した生成言語モデルの構築を目的とする。
この写本は、GPT-Jモデルに基づくLexGPTモデルの開発と、Pile of Lawで事前訓練を行っている。
- 参考スコア(独自算出の注目度): 1.8275108630751844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research aims to build generative language models specialized for the
legal domain. The manuscript presents the development of LexGPT models based on
GPT-J models and pre-trained with Pile of Law. The foundation model built in
this manuscript is the initial step for the development of future applications
in the legal domain, such as further training with reinforcement learning from
human feedback. Another objective of this manuscript is to assist legal
professionals in utilizing language models through the ``No Code'' approach. By
fine-tuning models with specialized data and without modifying any source code,
legal professionals can create custom language models for downstream tasks with
minimum effort and technical knowledge. The downstream task in this manuscript
is to turn a LexGPT model into a classifier, although the performance is
notably lower than the state-of-the-art result. How to enhance downstream task
performance without modifying the model or its source code is a research topic
for future exploration.
- Abstract(参考訳): 本研究の目的は法領域に特化した生成言語モデルの構築である。
この写本は、GPT-Jモデルに基づくLexGPTモデルの開発と、Pile of Lawで事前訓練を行っている。
この写本で構築された基礎モデルは、人間のフィードバックによる強化学習によるさらなるトレーニングなど、法域における将来の応用の発展に向けた最初のステップである。
この写本のもう一つの目的は、法律専門家が『No Code』アプローチで言語モデルを利用するのを支援することである。
特殊なデータでモデルを微調整し、ソースコードを変更することなく、法務専門家は最小限の労力と技術的知識で下流タスク用のカスタム言語モデルを作成することができる。
この原稿の下流のタスクは、LexGPTモデルを分類子にすることであるが、パフォーマンスは最先端の結果よりも顕著に低い。
モデルやソースコードを変更することなく、ダウンストリームタスクのパフォーマンスを向上する方法は、将来の調査のための研究トピックである。
関連論文リスト
- JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。
本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。
提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文 参考訳(メタデータ) (2024-02-13T19:54:29Z) - Revisiting Topic-Guided Language Models [20.21486464604549]
4つのトピック誘導言語モデルと2つのベースラインについて検討し、4つのコーパス上で各モデルの保留予測性能を評価する。
これらの手法はいずれも標準のLSTM言語モデルのベースラインを上回りません。
論文 参考訳(メタデータ) (2023-12-04T20:33:24Z) - Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code [24.936022005837415]
本稿では,言語モデルを用いたコード処理の最近の進歩を体系的にレビューする。
私たちは、コード処理モデルを、GPTファミリで表される一般的な言語モデルと、特にコードで事前訓練された特殊なモデルに分解します。
AST、CFG、ユニットテストなどのコード固有の機能や、トレーニングコード言語モデルのアプリケーションについて議論し、この領域における重要な課題と将来的な方向性を特定します。
論文 参考訳(メタデータ) (2023-11-14T08:34:26Z) - Who's Harry Potter? Approximate Unlearning in LLMs [4.821438899378393]
大きな言語モデル(LLM)は、しばしば著作権のあるコンテンツを含む巨大なインターネットコーパスで訓練されている。
これは、これらのモデルの開発者やユーザ、およびオリジナルの著者や出版者にとって、法的および倫理的な課題を引き起こす。
本稿では,LLMからトレーニングデータのサブセットをスクラッチから再学習する必要がない新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T17:48:14Z) - Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large
Language Models [11.57282859281814]
異なる知識レベルと属性戦略を考慮し、最良の方法で10の微調整されたモデルのうち8つを正確に追跡できることに気付きます。
論文 参考訳(メタデータ) (2023-06-15T17:42:48Z) - Fine-grained Text Style Transfer with Diffusion-Based Language Models [50.02698074338317]
微細テキストスタイル転送の標準ベンチマークであるStylePTBデータセットを用いて拡散モデルを構築した。
本モデルでは, 個人と作曲の両方において, 最先端の性能を達成できた。
論文 参考訳(メタデータ) (2023-05-31T02:51:26Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Stochastic Code Generation [1.7205106391379026]
コード生成のために事前訓練された大きな言語モデルは、高品質のショートコードを生成するが、コヒーレントな長いコードを生成するのにしばしば苦労する。
この問題は、長文生成のための言語モデリングにも見られる。
本研究では,この手法をコード生成に適用してコヒーレンスを向上できるかを検討する。
論文 参考訳(メタデータ) (2023-04-14T00:01:05Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Masked Autoencoders As The Unified Learners For Pre-Trained Sentence
Representation [77.47617360812023]
我々は、最近提案されたMAEスタイルの事前学習戦略であるRetroMAEを拡張し、幅広い文表現タスクをサポートする。
最初のステージでは、ベースモデルが学習されるWikipedia、BookCorpusなど、一般的なコーパス上でRetroMAEを実行する。
第2段階はドメイン固有のデータ、例えばMS MARCOやNLIで行われ、ベースモデルはRetroMAEとコントラスト学習に基づいて継続的に訓練される。
論文 参考訳(メタデータ) (2022-07-30T14:34:55Z) - Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods
in Natural Language Processing [78.8500633981247]
本稿では,自然言語処理における新たなパラダイムにおける研究成果の探索と整理を行う。
入力xを取り込んで出力yをP(y|x)として予測するようにモデルを訓練する従来の教師付き学習とは異なり、プロンプトベースの学習は直接テキストの確率をモデル化する言語モデルに基づいている。
論文 参考訳(メタデータ) (2021-07-28T18:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。