Fugu-MT 論文翻訳(概要): The Cambridge Law Corpus: A Corpus for Legal AI Research

論文の概要: The Cambridge Law Corpus: A Corpus for Legal AI Research

arxiv url: http://arxiv.org/abs/2309.12269v2
Date: Fri, 22 Sep 2023 19:35:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-26 10:35:38.193808
Title: The Cambridge Law Corpus: A Corpus for Legal AI Research
Title（参考訳）: cambridge law corpus: a corpus for legal ai research (英語)
Authors: Andreas \"Ostling and Holli Sargeant and Huiyuan Xie and Ludwig Bull and Alexander Terenin and Leif Jonsson and M{\aa}ns Magnusson and Felix Steffek
Abstract要約: 我々は、法的なAI研究のためのコーパスであるCambridge Law Corpus (CLC)を紹介する。英国から250,000件以上の訴訟が起こっている。ほとんどのケースは21世紀のものであるが、コーパスには16世紀のものが含まれる。
参考スコア（独自算出の注目度）: 39.46419979211015
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce the Cambridge Law Corpus (CLC), a corpus for legal AI research. It consists of over 250 000 court cases from the UK. Most cases are from the 21st century, but the corpus includes cases as old as the 16th century. This paper presents the first release of the corpus, containing the raw text and meta-data. Together with the corpus, we provide annotations on case outcomes for 638 cases, done by legal experts. Using our annotated data, we have trained and evaluated case outcome extraction with GPT-3, GPT-4 and RoBERTa models to provide benchmarks. We include an extensive legal and ethical discussion to address the potentially sensitive nature of this material. As a consequence, the corpus will only be released for research purposes under certain restrictions.
Abstract（参考訳）: 法的なAI研究のためのコーパスであるCambridge Law Corpus (CLC)を紹介する。英国から250,000件以上の訴訟が起こっている。ほとんどのケースは21世紀のものであるが、コーパスには16世紀のものが含まれる。本稿では,原文とメタデータを含むコーパスの最初のリリースについて述べる。コーパスとともに,法律専門家による638件の事例に対して,事例結果に関する注釈を提供する。注記データを用いて,GPT-3,GPT-4,RoBERTaモデルを用いて事例抽出を行い,評価を行った。我々は、この資料の潜在的に敏感な性質に対処するための、広範な法的および倫理的な議論を含む。その結果、コーパスは特定の制限下で研究目的のためにのみ解放される。

関連論文リスト

SinhaLegal: A Benchmark Corpus for Information Extraction and Analysis in Sinhala Legislative Texts [0.0]
SinhaLegalは1,206件の法的文書に約200万語を含むSinhala法定テキストコーパスを導入している。データセットには、1981年から2014年までの1,065件、2010年から2014年までの141件の法律文書が含まれている。テキストは、Google Document AIでOCRを使用して抽出され、続いて広範な後処理と手作業によるクリーニングにより、高品質でマシン可読なコンテンツが保証された。
論文参考訳（メタデータ） (2026-03-05T06:13:44Z)
AppealCase: A Dataset and Benchmark for Civil Case Appeal Scenarios [47.83822985839837]
本稿では,91件の民事事件の1万対の実世界と一致した第1インスタンスと第2インスタンスの文書からなるFiceCaseデータセットを提案する。このデータセットには、判断の逆転、逆転理由、引用された法的規定、クレームレベルの決定、第2のインスタンスに新たな情報があるかどうかという5つの側面に沿った詳細なアノテーションも含まれている。実験結果から, すべてのモデルが判定逆転予測タスクにおいて50%未満のF1スコアを達成し, 魅力シナリオの複雑さと課題を浮き彫りにしていることがわかった。
論文参考訳（メタデータ） (2025-05-22T10:50:33Z)
AnnoCaseLaw: A Richly-Annotated Dataset For Benchmarking Explainable Legal Judgment Prediction [56.797874973414636]
AnnoCaseLawは、アメリカ合衆国控訴裁判所の無視事件を慎重に注釈付けした471のデータセットである。我々のデータセットは、より人間らしく説明可能な法的な判断予測モデルの基礎となる。その結果、LJPは依然として厳しい課題であり、法的な前例の適用は特に困難であることが示されている。
論文参考訳（メタデータ） (2025-02-28T19:14:48Z)
CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation [44.67578050648625]
我々は、大規模なオープンソース法定コーパスを、情報検索(IR)と検索拡張生成(RAG)をサポートするデータセットに変換する。このデータセットCLERCは、(1)法的な分析のための対応する引用を見つけ、(2)これらの引用のテキストを、推論目標を支持するコジェント分析にコンパイルする能力に基づいて、モデルのトレーニングと評価のために構築される。
論文参考訳（メタデータ） (2024-06-24T23:57:57Z)
LLM vs. Lawyers: Identifying a Subset of Summary Judgments in a Large UK Case Law Dataset [0.0]
本研究は, 英国裁判所判決の大規模コーパスから, 判例, 判例、判例、判例、判例、判例、判例、判例、判例、判例、判例、判例、判例、判例、判例、判例、判例、判例、判例、判例、判例、判例、判例、判例、判例、判例、判例、判例、我々は、ケンブリッジ法コーパス356,011英国の裁判所決定を用いて、大きな言語モデルは、キーワードに対して重み付けされたF1スコアが0.94対0.78であると判断する。我々は,3,102件の要約判断事例を同定し抽出し,その分布を時間的範囲の様々な英国裁判所にマップできるようにする。
論文参考訳（メタデータ） (2024-03-04T10:13:30Z)
MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文参考訳（メタデータ） (2023-10-24T08:17:11Z)
FlairNLP at SemEval-2023 Task 6b: Extraction of Legal Named Entities from Legal Texts using Contextual String Embeddings [0.0]
我々は、知識抽出技術、特に訴訟判決における法的実体の命名された実体抽出技術を用いている。法文のキュレートされたデータセットに基づいて学習したモデルを用いて,シーケンスラベリングの領域におけるアートアーキテクチャのいくつかの状態を評価する。 Flair EmbeddingsでトレーニングされたBi-LSTMモデルは、最良の結果を得る。
論文参考訳（メタデータ） (2023-06-03T19:38:04Z)
SAILER: Structure-aware Pre-trained Language Model for Legal Case Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文参考訳（メタデータ） (2023-04-22T10:47:01Z)
Pile of Law: Learning Responsible Data Filtering from the Law and a 256GB Open-Source Legal Dataset [46.156169284961045]
我々は, フィルター材料におけるトレードオフに直接対処する法則に基づくフィルタリングへのアプローチを提案する。まず、256GBのオープンソース英語および行政データのデータセットであるPile of Lawを収集、利用可能にします。第二に、政府が有毒または私的コンテンツを含めることを規制するために開発した法規範を精査する。第3に、Pile of Lawが研究者に、このようなフィルタリングルールを直接データから学習する機会を提供する方法を示します。
論文参考訳（メタデータ） (2022-07-01T06:25:15Z)
A Multi-Task Benchmark for Korean Legal Language Understanding and Judgement Prediction [19.89425856249463]
韓国の法律AIデータセットであるLBox Openの大規模なベンチマークについて紹介する。この法定コーパスは150万の韓国の先例(2億6400万トークン)で構成され、そのうち過去4年間に63万の判決が下された。 2つの分類課題は事例名(10k)と個々の事例の事実記述による法令(3k)の予測である。 LJP タスクは,(1) 1k 件の犯罪事例からなり,そのモデルに詳細な量の予測,労働への投獄,及び与えられた事実に対する労働範囲のない投獄が求められる。
論文参考訳（メタデータ） (2022-06-10T16:51:45Z)
JUSTICE: A Benchmark Dataset for Supreme Court's Judgment Prediction [0.0]
我々は、自然言語処理(NLP)研究やその他のデータ駆動アプリケーションで容易に利用できるように、SCOTUS裁判所の高品質なデータセットを作成することを目指している。先進的なNLPアルゴリズムを用いて以前の訴訟を分析することにより、訓練されたモデルは裁判所の判断を予測し、分類することができる。
論文参考訳（メタデータ） (2021-12-06T23:19:08Z)
What About the Precedent: An Information-Theoretic Analysis of Common Law [64.49276556192073]
一般的な法律では、新しい事件の結果は、既存の法令ではなく、前例によって決定されることが多い。私たちは、2つの長年にわたる法学的な見解を比較することで、この問題に最初に取り組みました。前例の主張は事件の結果と0.38ナットの情報を共有しているのに対し、前例の事実は0.18ナットの情報しか共有していない。
論文参考訳（メタデータ） (2021-04-25T11:20:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。