論文の概要: Legal Documents Drafting with Fine-Tuned Pre-Trained Large Language Model
- arxiv url: http://arxiv.org/abs/2406.04202v1
- Date: Thu, 6 Jun 2024 16:00:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 14:10:28.853740
- Title: Legal Documents Drafting with Fine-Tuned Pre-Trained Large Language Model
- Title(参考訳): 微調整付き事前学習型大言語モデルによる法的文書作成
- Authors: Chun-Hsien Lin, Pu-Jen Cheng,
- Abstract要約: 本稿では,中国語の分節化を伴わずに多数の注釈のない法律文書を活用でき,大規模言語モデルを微調整できることを示す。
また、法的文書草案作成作業も達成でき、同時に情報プライバシーの保護と情報セキュリティ問題の改善も達成できる。
- 参考スコア(独自算出の注目度): 1.3812010983144798
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the development of large-scale Language Models (LLM), fine-tuning pre-trained LLM has become a mainstream paradigm for solving downstream tasks of natural language processing. However, training a language model in the legal field requires a large number of legal documents so that the language model can learn legal terminology and the particularity of the format of legal documents. The typical NLP approaches usually rely on many manually annotated data sets for training. However, in the legal field application, it is difficult to obtain a large number of manually annotated data sets, which restricts the typical method applied to the task of drafting legal documents. The experimental results of this paper show that not only can we leverage a large number of annotation-free legal documents without Chinese word segmentation to fine-tune a large-scale language model, but more importantly, it can fine-tune a pre-trained LLM on the local computer to achieve the generating legal document drafts task, and at the same time achieve the protection of information privacy and to improve information security issues.
- Abstract(参考訳): 大規模言語モデル(LLM)の開発により、微調整事前学習 LLM は自然言語処理の下流タスクを解決する主要なパラダイムとなっている。
しかし、法的分野における言語モデルの訓練には、言語モデルが法的用語学や法律文書の形式を習得できるように、多数の法的文書が必要である。
典型的なNLPアプローチは通常、トレーニングのために手動でアノテートされたデータセットに頼っている。
しかし, 法律分野の応用においては, 手動で注釈付きデータセットを多数取得することは困難であり, 文書の起草作業に適用される典型的な手法を制限している。
本研究は,中国語の単語セグメント化を伴わない大量の注釈なし法定文書を大規模言語モデルに微調整できるだけでなく,ローカルコンピュータ上で事前学習したLCMを微調整することで,法定文書草案作成作業を実現し,同時に情報プライバシーの保護と情報セキュリティ問題の改善を図ることができることを示す。
関連論文リスト
- TransformLLM: Adapting Large Language Models via LLM-Transformed Reading Comprehension Text [5.523385345486362]
法的な応用に特化して設計された言語モデルを開発した。
我々の革新的なアプローチは、Large Language Models (LLMs) を用いて、生のトレーニングデータを読解テキストに変換することによって、法的タスクの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-28T19:32:18Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - One Law, Many Languages: Benchmarking Multilingual Legal Reasoning for Judicial Support [18.810320088441678]
この研究は、法域に対する新しいNLPベンチマークを導入している。
エンフロング文書(最大50Kトークン)の処理、エンフドメイン固有の知識(法的テキストに具体化されている)、エンフマルチリンガル理解(5つの言語をカバーしている)の5つの重要な側面においてLCMに挑戦する。
我々のベンチマークにはスイスの法体系からの多様なデータセットが含まれており、基礎となる非英語、本質的には多言語法体系を包括的に研究することができる。
論文 参考訳(メタデータ) (2023-06-15T16:19:15Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - LegalRelectra: Mixed-domain Language Modeling for Long-range Legal Text
Comprehension [6.442209435258797]
LegalRelectraは、混合ドメイン法と医療コーパスに基づいて訓練された法律ドメイン言語モデルである。
トレーニングアーキテクチャはElectraフレームワークを実装しているが,生成器と識別器にはBERTの代わりにReformerを使用している。
論文 参考訳(メタデータ) (2022-12-16T00:15:14Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - LAWDR: Language-Agnostic Weighted Document Representations from
Pre-trained Models [8.745407715423992]
言語間文書表現は、多言語コンテキストにおける言語理解を可能にする。
BERT、XLM、XLM-RoBERTaのような大規模な事前学習言語モデルは、文レベルの下流タスクを微調整することで大きな成功を収めた。
論文 参考訳(メタデータ) (2021-06-07T07:14:00Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。