論文の概要: CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review
- arxiv url: http://arxiv.org/abs/2103.06268v1
- Date: Wed, 10 Mar 2021 18:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 15:06:22.521971
- Title: CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review
- Title(参考訳): CUAD: 法律契約レビューのためのエキスパートアノテーション付きNLPデータセット
- Authors: Dan Hendrycks and Collin Burns and Anya Chen and Spencer Ball
- Abstract要約: 法的契約レビューのための新しいデータセットであるContract Understanding Atticusデータセット(CUAD)を紹介します。
CUADはThe Atticus Projectから数十名の法律専門家によって作成され、13,000以上のアノテーションで構成されている。
トランスフォーマーモデルの性能は初期段階にあるが,この性能はデータセットサイズに強く影響されている。
専門家によって注釈付けされた唯一の大規模で専門的なNLPベンチマークの1つとして、CUADはより広範なNLPコミュニティのための挑戦的な研究ベンチマークとして機能する。
- 参考スコア(独自算出の注目度): 12.253859107637728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many specialized domains remain untouched by deep learning, as large labeled
datasets require expensive expert annotators. We address this bottleneck within
the legal domain by introducing the Contract Understanding Atticus Dataset
(CUAD), a new dataset for legal contract review. CUAD was created with dozens
of legal experts from The Atticus Project and consists of over 13,000
annotations. The task is to highlight salient portions of a contract that are
important for a human to review. We find that Transformer models have nascent
performance, but that this performance is strongly influenced by model design
and training dataset size. Despite these promising results, there is still
substantial room for improvement. As one of the only large, specialized NLP
benchmarks annotated by experts, CUAD can serve as a challenging research
benchmark for the broader NLP community.
- Abstract(参考訳): 多くの専門ドメインは、大規模なラベル付きデータセットには高価なエキスパートアノテータを必要とするため、ディープラーニングには触れられません。
我々は、法的契約レビューのための新しいデータセットであるcontract understanding atticus dataset (cuad)を導入することで、法律領域におけるこのボトルネックに対処する。
CUADはThe Atticus Projectから数十名の法律専門家によって作成され、13,000以上のアノテーションで構成されている。
タスクは、人間がレビューする上で重要な契約の突出した部分を強調することです。
トランスフォーマーモデルの性能は初期段階にあるが,この性能はモデル設計とトレーニングデータセットサイズの影響を強く受けている。
これらの有望な結果にもかかわらず、改善の余地はまだある。
専門家によって注釈付けされた唯一の大規模で専門的なNLPベンチマークの1つとして、CUADはより広範なNLPコミュニティのための挑戦的な研究ベンチマークとして機能する。
関連論文リスト
- Legal Judgment Reimagined: PredEx and the Rise of Intelligent AI Interpretation in Indian Courts [6.339932924789635]
textbfPrediction with textbfExplanation (textttPredEx)は、インドの文脈における法的判断予測と説明のための、専門家による最大のデータセットである。
このコーパスは、法的分析におけるAIモデルのトレーニングと評価を大幅に強化する。
論文 参考訳(メタデータ) (2024-06-06T14:57:48Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Improving Legal Judgement Prediction in Romanian with Long Text Encoders [0.8933959485129375]
我々は,LJP(Lawal Judgment Prediction)と呼ばれる訴訟の最終判決を予測するための専門的および一般モデルについて検討する。
本研究では,Transformerをベースとしたモデルのシーケンス長に拡張する手法に着目し,法的なコーパスに存在する長いドキュメントをよりよく理解する。
論文 参考訳(メタデータ) (2024-02-29T13:52:33Z) - Contrastive Multiple Instance Learning for Weakly Supervised Person ReID [50.04900262181093]
本稿では、より効果的に教師付きされたReIDに適した新しいフレームワークであるContrastive Multiple Instance Learning (CMIL)を紹介する。
CMILは、対照的な損失を生かしながら、単一のモデルと擬似ラベルを必要とせず、自分自身を区別する。
PerformancePhoto.coの実際のアプリケーションから自然に発生する弱いラベルを特徴とするMUDDデータセットの拡張であるWL-MUDDデータセットをリリースする。
論文 参考訳(メタデータ) (2024-02-12T14:48:31Z) - Modeling Legal Reasoning: LM Annotation at the Edge of Human Agreement [3.537369004801589]
我々は法学哲学に基づく法学推論の分類について研究する。
我々は、ドメインの専門家チームによって注釈付けされた、アメリカ合衆国最高裁判所の歴史的意見の新しいデータセットを使用します。
生成モデルは、人間のアノテーションに提示される命令と同等の命令が与えられた場合、性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-10-27T19:27:59Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - From Dissonance to Insights: Dissecting Disagreements in Rationale
Construction for Case Outcome Classification [21.56347984160413]
ケースアウトカム分類(COC)は正確で信頼できるものでなければならない。
ケーススタディは、法的NLPでベンチマークデータセットを作成する際の、過度な複雑さを明らかにしている。
論文 参考訳(メタデータ) (2023-10-18T11:04:31Z) - CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market [61.59326951366202]
我々は、中国株式政策検索データセット(CSPRD)を導入して、新たな課題である政策検索を提案する。
CSPRDは、中国の政策コーパスの10k以上の項目から、経験豊富な専門家によってラベル付けされた700以上のパスを提供する。
我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。
論文 参考訳(メタデータ) (2023-09-08T15:40:54Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - MAUD: An Expert-Annotated Legal NLP Dataset for Merger Agreement
Understanding [25.094132496985214]
MAUDは、アメリカバー協会の2021年のパブリックターゲット・ディール・ポイント・スタディに基づく、専門家による注釈付き読解データセットである。
我々の微調整されたTransformerベースラインは、多くの質問において、モデルがランダムよりもはるかに高いパフォーマンスで、有望な結果を示している。
MAUDは法律専門家とNLPコミュニティの両方にとって重要なベンチマークである。
論文 参考訳(メタデータ) (2023-01-02T21:08:27Z) - NLPeer: A Unified Resource for the Computational Study of Peer Review [58.71736531356398]
NLPeer - 5万以上の論文と5つの異なる会場からの1万1千件のレビューレポートからなる、初めて倫理的にソースされたマルチドメインコーパス。
従来のピアレビューデータセットを拡張し、解析および構造化された論文表現、豊富なメタデータ、バージョニング情報を含む。
我々の研究は、NLPなどにおけるピアレビューの体系的、多面的、エビデンスに基づく研究への道のりをたどっている。
論文 参考訳(メタデータ) (2022-11-12T12:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。