論文の概要: ACORD: An Expert-Annotated Retrieval Dataset for Legal Contract Drafting
- arxiv url: http://arxiv.org/abs/2501.06582v1
- Date: Sat, 11 Jan 2025 16:37:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:26:04.238020
- Title: ACORD: An Expert-Annotated Retrieval Dataset for Legal Contract Drafting
- Title(参考訳): ACORD: 専門家による法的契約書作成のための検索データセット
- Authors: Steven H. Wang, Maksim Zubkov, Kexin Fan, Sarah Harrell, Yuyang Sun, Wei Chen, Andreas Plesner, Roger Wattenhofer,
- Abstract要約: ACORDは、責任の制限(Limitation of Liability)、償却(Indemnification)、統制の変更(Change of Control)、最も好まれる国家( Most Favored Nation)といった複雑な契約条項に焦点を当てている。
114のクエリと126,000のクエリクロースペアが含まれており、それぞれが1から5の星のスケールでランク付けされている。
タスクはクエリーに最も関連性の高い前例句を見つけることである。
- 参考スコア(独自算出の注目度): 20.36963140030526
- License:
- Abstract: Information retrieval, specifically contract clause retrieval, is foundational to contract drafting because lawyers rarely draft contracts from scratch; instead, they locate and revise the most relevant precedent. We introduce the Atticus Clause Retrieval Dataset (ACORD), the first retrieval benchmark for contract drafting fully annotated by experts. ACORD focuses on complex contract clauses such as Limitation of Liability, Indemnification, Change of Control, and Most Favored Nation. It includes 114 queries and over 126,000 query-clause pairs, each ranked on a scale from 1 to 5 stars. The task is to find the most relevant precedent clauses to a query. The bi-encoder retriever paired with pointwise LLMs re-rankers shows promising results. However, substantial improvements are still needed to effectively manage the complex legal work typically undertaken by lawyers. As the first retrieval benchmark for contract drafting annotated by experts, ACORD can serve as a valuable IR benchmark for the NLP community.
- Abstract(参考訳): 情報検索、特に契約条項の検索は、弁護士が契約をスクラッチから起草することが滅多にないため、契約の起草に基礎を置いている。
本稿では,アッティカス・クラウス検索データセット(ACORD)について紹介する。
ACORDは、責任の制限(Limitation of Liability)、償却(Indemnification)、統制の変更(Change of Control)、最も好まれる国家( Most Favored Nation)といった複雑な契約条項に焦点を当てている。
114のクエリと126,000のクエリクロースペアが含まれており、それぞれが1から5の星のスケールでランク付けされている。
タスクはクエリーに最も関連性の高い前例句を見つけることである。
両エンコーダレトリバーとポイントワイドLLMのリランカをペアリングすると,有望な結果が得られる。
しかし、弁護士が行う複雑な法律業務を効果的に管理するためには、依然としてかなりの改善が必要である。
ACORDは専門家によって注釈付けされた契約草案作成のための最初のベンチマークであり、NLPコミュニティにとって貴重なIRベンチマークとして機能する。
関連論文リスト
- JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation [44.67578050648625]
我々は、大規模なオープンソース法定コーパスを、情報検索(IR)と検索拡張生成(RAG)をサポートするデータセットに変換する。
このデータセットCLERCは、(1)法的な分析のための対応する引用を見つけ、(2)これらの引用のテキストを、推論目標を支持するコジェント分析にコンパイルする能力に基づいて、モデルのトレーニングと評価のために構築される。
論文 参考訳(メタデータ) (2024-06-24T23:57:57Z) - STARD: A Chinese Statute Retrieval Dataset with Real Queries Issued by Non-professionals [14.002280587675175]
ルール検索は、特定のクエリに関する関連する法定項目を見つけることを目的としている。
既存の法定検索ベンチマークは、司法試験や訴訟文書などのソースからの形式的および専門的なクエリに焦点を当てている。
このギャップに対処するため、STAtute Retrieval データセット(STARD)を導入します。
既存の法定検索データセットとは異なり、STARDは一般からの実際のクエリの複雑さと多様性をキャプチャする。
論文 参考訳(メタデータ) (2024-06-21T17:10:09Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - LegalPro-BERT: Classification of Legal Provisions by fine-tuning BERT Large Language Model [0.0]
契約分析は、合意の範囲内で重要な規定及び段落の識別及び分類を必要とする。
LegalPro-BERTはBERTトランスフォーマーアーキテクチャモデルであり、法定条項の分類処理を効率的に行うために微調整を行う。
論文 参考訳(メタデータ) (2024-04-15T19:08:48Z) - MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - MAUD: An Expert-Annotated Legal NLP Dataset for Merger Agreement
Understanding [25.094132496985214]
MAUDは、アメリカバー協会の2021年のパブリックターゲット・ディール・ポイント・スタディに基づく、専門家による注釈付き読解データセットである。
我々の微調整されたTransformerベースラインは、多くの質問において、モデルがランダムよりもはるかに高いパフォーマンスで、有望な結果を示している。
MAUDは法律専門家とNLPコミュニティの両方にとって重要なベンチマークである。
論文 参考訳(メタデータ) (2023-01-02T21:08:27Z) - ConReader: Exploring Implicit Relations in Contracts for Contract Clause
Extraction [84.0634340572349]
法律契約における暗黙の関係をモデル化し,契約条項の自動抽出(CCE)について検討する。
本研究ではまず,契約の複雑性問題を包括的に分析し,契約に共通する3つの暗黙の関係を抽出する。
本稿では,上記の3つの関係を利用して,より優れたコントラクト理解とCCEの改善を実現するための新しいフレームワークであるConReaderを提案する。
論文 参考訳(メタデータ) (2022-10-17T02:15:18Z) - CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review [12.253859107637728]
法的契約レビューのための新しいデータセットであるContract Understanding Atticusデータセット(CUAD)を紹介します。
CUADはThe Atticus Projectから数十名の法律専門家によって作成され、13,000以上のアノテーションで構成されている。
トランスフォーマーモデルの性能は初期段階にあるが,この性能はデータセットサイズに強く影響されている。
専門家によって注釈付けされた唯一の大規模で専門的なNLPベンチマークの1つとして、CUADはより広範なNLPコミュニティのための挑戦的な研究ベンチマークとして機能する。
論文 参考訳(メタデータ) (2021-03-10T18:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。