論文の概要: The Material Contracts Corpus
- arxiv url: http://arxiv.org/abs/2504.02864v1
- Date: Tue, 01 Apr 2025 00:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:43.410712
- Title: The Material Contracts Corpus
- Title(参考訳): 材料契約コーパス
- Authors: Peter Adelson, Julian Nyarko,
- Abstract要約: マテリアル・コントラクト・コーポレーション(Material Contracts Corpus、MCC)は、2000年から2023年にかけて、米国証券取引委員会(SEC)が公開企業から100万件以上の契約を申請したデータセットである。
MCCは契約設計と法的言語に関する実証的研究を促進し、AIベースの法律ツールの開発を支援している。
- 参考スコア(独自算出の注目度): 0.2501580705971766
- License:
- Abstract: This paper introduces the Material Contracts Corpus (MCC), a publicly available dataset comprising over one million contracts filed by public companies with the U.S. Securities and Exchange Commission (SEC) between 2000 and 2023. The MCC facilitates empirical research on contract design and legal language, and supports the development of AI-based legal tools. Contracts in the corpus are categorized by agreement type and linked to specific parties using machine learning and natural language processing techniques, including a fine-tuned LLaMA-2 model for contract classification. The MCC further provides metadata such as filing form, document format, and amendment status. We document trends in contractual language, length, and complexity over time, and highlight the dominance of employment and security agreements in SEC filings. This resource is available for bulk download and online access at https://mcc.law.stanford.edu.
- Abstract(参考訳): 本論では,2000年から2023年にかけて,米国証券取引委員会(SEC)が公募した100万件以上の契約からなる公開データセットであるMaterial Contracts Corpus(MCC)を紹介する。
MCCは契約設計と法的言語に関する実証的研究を促進し、AIベースの法律ツールの開発を支援している。
コーパス内の契約は契約タイプによって分類され、契約分類のための微調整LLaMA-2モデルを含む機械学習と自然言語処理技術を用いて特定の当事者にリンクされる。
MCCはさらに、ファイリングフォーム、文書フォーマット、修正ステータスなどのメタデータを提供する。
我々は、契約言語、長さ、複雑さの傾向を時間とともに文書化し、SECの申請書における雇用とセキュリティ契約の優位性を強調します。
このリソースは、大量ダウンロードとオンラインアクセスがhttps://mcc.law.stanford.edu.comで可能である。
関連論文リスト
- 3CEL: A corpus of legal Spanish contract clauses [0.39148004372180983]
Legal Spanish Contract Clauses (3CEL)は、INESData 2024のフレームワーク内で開発された契約情報抽出コーパスである。
3CELは、契約の理解とレビューのための重要な情報を特定する19の定義されたカテゴリ(合計タグ4,782個)を使用して、手動で注釈付けされたテンダーを373個含んでいる。
論文 参考訳(メタデータ) (2025-01-27T12:20:57Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - LegalPro-BERT: Classification of Legal Provisions by fine-tuning BERT Large Language Model [0.0]
契約分析は、合意の範囲内で重要な規定及び段落の識別及び分類を必要とする。
LegalPro-BERTはBERTトランスフォーマーアーキテクチャモデルであり、法定条項の分類処理を効率的に行うために微調整を行う。
論文 参考訳(メタデータ) (2024-04-15T19:08:48Z) - Generating Clarification Questions for Disambiguating Contracts [3.672364005691543]
我々は,契約の明確化に関する疑問を生じさせる新たな法的NLPタスクを導入する。
これらの質問は、文書レベルで契約の曖昧さを特定し、非法的利害関係者を支援することを目的としています。
CUADデータセットから得られた契約に基づいて実施された実験は、ConRAPがF2スコア0.87であいまいさを検出できることを示している。
論文 参考訳(メタデータ) (2024-03-12T19:57:39Z) - MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - Unlocking Practical Applications in Legal Domain: Evaluation of GPT for
Zero-Shot Semantic Annotation of Legal Texts [0.0]
我々は、短いテキストスニペットのセマンティックアノテーションを実行するための、最先端の生成事前学習トランスフォーマ(GPT)モデルの有効性を評価する。
その結果、GPTモデルは様々な種類の文書のゼロショット設定において驚くほどよく機能することがわかった。
論文 参考訳(メタデータ) (2023-05-08T01:55:53Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - Classification of Contract-Amendment Relationships [0.0]
機械学習(ML)と自然言語処理(NLP)に基づく2つの文書間の修正関係を検出する手法を提案する。
このアルゴリズムは OCR (Optical Character Recognition) と NER (Named Entity Recognition) によって事前処理された2つのPDF文書を入力とし、各文書ペアの特徴を構築する。
論文 参考訳(メタデータ) (2021-06-08T07:57:10Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z) - \textit{StateCensusLaws.org}: A Web Application for Consuming and
Annotating Legal Discourse Learning [89.77347919191774]
法律テキストの対話セグメントを解析およびラベル付けするために訓練されたNLPモデルの出力を強調表示するためのWebアプリケーションを作成します。
我々は、米国国勢調査人口を用いて資源を割り当て、政府を組織する州レベルの法律に焦点を当てる。
論文 参考訳(メタデータ) (2021-04-20T22:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。