論文の概要: A Multi-Task Benchmark for Korean Legal Language Understanding and
Judgement Prediction
- arxiv url: http://arxiv.org/abs/2206.05224v1
- Date: Fri, 10 Jun 2022 16:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:37:38.750335
- Title: A Multi-Task Benchmark for Korean Legal Language Understanding and
Judgement Prediction
- Title(参考訳): 韓国の法律言語理解と判断予測のためのマルチタスクベンチマーク
- Authors: Wonseok Hwang, Dongjun Lee, Kyoungyeon Cho, Hanuhl Lee, Minjoon Seo
- Abstract要約: 韓国の法律AIデータセットであるLBox Openの大規模なベンチマークについて紹介する。
この法定コーパスは150万の韓国の先例(2億6400万トークン)で構成され、そのうち過去4年間に63万の判決が下された。
2つの分類課題は事例名(10k)と個々の事例の事実記述による法令(3k)の予測である。
LJP タスクは,(1) 1k 件の犯罪事例からなり,そのモデルに詳細な量の予測,労働への投獄,及び与えられた事実に対する労働範囲のない投獄が求められる。
- 参考スコア(独自算出の注目度): 19.89425856249463
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The recent advances of deep learning have dramatically changed how machine
learning, especially in the domain of natural language processing, can be
applied to legal domain. However, this shift to the data-driven approaches
calls for larger and more diverse datasets, which are nevertheless still small
in number, especially in non-English languages. Here we present the first
large-scale benchmark of Korean legal AI datasets, LBox Open, that consists of
one legal corpus, two classification tasks, two legal judgement prediction
(LJP) tasks, and one summarization task. The legal corpus consists of 150k
Korean precedents (264M tokens), of which 63k are sentenced in last 4 years and
96k are from the first and the second level courts in which factual issues are
reviewed. The two classification tasks are case names (10k) and statutes (3k)
prediction from the factual description of individual cases. The LJP tasks
consist of (1) 11k criminal examples where the model is asked to predict fine
amount, imprisonment with labor, and imprisonment without labor ranges for the
given facts, and (2) 5k civil examples where the inputs are facts and claim for
relief and outputs are the degrees of claim acceptance. The summarization task
consists of the Supreme Court precedents and the corresponding summaries. We
also release LCube, the first Korean legal language model trained on the legal
corpus from this study. Given the uniqueness of the Law of South Korea and the
diversity of the legal tasks covered in this work, we believe that LBox Open
contributes to the multilinguality of global legal research. LBox Open and
LCube will be publicly available.
- Abstract(参考訳): ディープラーニングの最近の進歩は、機械学習、特に自然言語処理の領域において、法的領域に適用できる方法を大きく変えた。
しかし、このデータ駆動アプローチへの移行は、特に非英語言語では、より大きく、より多様なデータセットを必要とする。
本稿では,韓国法務aiデータセットの最初の大規模ベンチマークであるlbox openについて述べる。1つの法務コーパス,2つの分類タスク,2つの法務判断予測(ljp)タスク,1つの要約タスクで構成される。
この法定コーパスは150万件の韓国の先例(264万トークン)で構成されており、うち過去4年間に63万件、第1級および第2級の裁判所から96万件の判決が下されている。
2つの分類課題は事例名(10k)と個々の事例の事実記述による法令(3k)の予測である。
ljpの業務は、(1)モデルが与えられた事実に対して、罰金、禁固、無期懲役の予測を依頼された11k件の犯罪例と、(2)入力が事実であり、救済と出力の請求がクレーム受理の程度である5k件の民事例からなる。
要約作業は最高裁判所の判例とそれに対応する要約からなる。
また,本研究から,韓国初の法的コーパスを訓練した法律言語モデルであるLCubeもリリースした。
韓国の法律の独自性と、この研究がカバーする法的タスクの多様性を考えると、lbox openはグローバル法学研究の多言語性に寄与していると信じている。
LBox OpenとLCubeは一般公開される。
関連論文リスト
- InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。
我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。
本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-27T10:40:14Z) - PARAMANU-AYN: An Efficient Novel Generative and Instruction-tuned Language Model for Indian Legal Case Documents [3.9018931027384056]
パラマヌ・アイン(Paramanu-Ayn)は、インド最高裁判所、インド憲法、インド刑法典の事例文書にのみ基づく言語モデルである。
我々のモデルはCPU上で動作し、42.46トークン/秒のCPU推論速度を達成した。
論文 参考訳(メタデータ) (2024-03-20T15:39:54Z) - LLM vs. Lawyers: Identifying a Subset of Summary Judgments in a Large UK
Case Law Dataset [0.0]
本研究は, 英国裁判所判決の大規模コーパスから, 判例, 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、
我々は、ケンブリッジ法コーパス356,011英国の裁判所決定を用いて、大きな言語モデルは、キーワードに対して重み付けされたF1スコアが0.94対0.78であると判断する。
我々は,3,102件の要約判断事例を同定し抽出し,その分布を時間的範囲の様々な英国裁判所にマップできるようにする。
論文 参考訳(メタデータ) (2024-03-04T10:13:30Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - Automated Argument Generation from Legal Facts [6.057773749499076]
法律体系に提出される事件の数は、ある国の法律専門家の数よりもはるかに多い。
本研究では,訴訟分析の過程において,法的専門家を支援することに焦点を当てた。
実験結果から,ベストパフォーマンスメソッドから生成された引数は,ベンチマークセットのゴールド標準アノテーションと平均63%の重なりを持つことがわかった。
論文 参考訳(メタデータ) (2023-10-09T12:49:35Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Legal Prompt Engineering for Multilingual Legal Judgement Prediction [2.539568419434224]
Legal Prompt Engineering (LPE) または Legal Prompting は、大規模言語モデル (LLM) を指導し、支援するプロセスである。
欧州人権裁判所(英語)及びスイス連邦最高裁判所(ドイツ語・フランス語・イタリア語)の事例文におけるゼロショットLPEの性能について検討する。
論文 参考訳(メタデータ) (2022-12-05T12:17:02Z) - Exploiting Contrastive Learning and Numerical Evidence for Confusing
Legal Judgment Prediction [46.71918729837462]
訴訟の事実記述文を考慮し、法的判断予測は、事件の告訴、法律記事、刑期を予測することを目的としている。
従来の研究では、標準的なクロスエントロピー分類損失と異なる分類誤差を区別できなかった。
本稿では,モコに基づく教師付きコントラスト学習を提案する。
さらに,事前学習した数値モデルにより符号化された抽出された犯罪量による事実記述の表現をさらに強化する。
論文 参考訳(メタデータ) (2022-11-15T15:53:56Z) - ClassActionPrediction: A Challenging Benchmark for Legal Judgment
Prediction of Class Action Cases in the US [0.0]
米国におけるクラスアクションケースに焦点を当てた、挑戦的なLJPデータセットを初めてリリースしました。
これは、裁判所がしばしば使用する事実の要約ではなく、苦情を入力として含む、より難しくより現実的なタスクに焦点を当てた、共通の法体系における最初のデータセットである。
我々のLongformerモデルは、最初の2,048トークンしか考慮していないにもかかわらず、明らかに人間のベースライン(63%)を上回っている。さらに、詳細なエラー解析を行い、Longformerモデルが人間の専門家よりも格付けがかなり優れていることを発見した。
論文 参考訳(メタデータ) (2022-11-01T16:57:59Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。