論文の概要: MAUD: An Expert-Annotated Legal NLP Dataset for Merger Agreement
Understanding
- arxiv url: http://arxiv.org/abs/2301.00876v1
- Date: Mon, 2 Jan 2023 21:08:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 14:32:22.218456
- Title: MAUD: An Expert-Annotated Legal NLP Dataset for Merger Agreement
Understanding
- Title(参考訳): MAUD: 合併合意理解のための専門家アノテーション付き法定NLPデータセット
- Authors: Steven H. Wang, Antoine Scardigli, Leonard Tang, Wei Chen, Dimitry
Levkin, Anya Chen, Spencer Ball, Thomas Woodside, Oliver Zhang, Dan Hendrycks
- Abstract要約: MAUDは、アメリカバー協会の2021年のパブリックターゲット・ディール・ポイント・スタディに基づく、専門家による注釈付き読解データセットである。
我々の微調整されたTransformerベースラインは、多くの質問において、モデルがランダムよりもはるかに高いパフォーマンスで、有望な結果を示している。
MAUDは法律専門家とNLPコミュニティの両方にとって重要なベンチマークである。
- 参考スコア(独自算出の注目度): 15.221012217661267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reading comprehension of legal text can be a particularly challenging task
due to the length and complexity of legal clauses and a shortage of
expert-annotated datasets. To address this challenge, we introduce the Merger
Agreement Understanding Dataset (MAUD), an expert-annotated reading
comprehension dataset based on the American Bar Association's 2021 Public
Target Deal Points Study, with over 39,000 examples and over 47,000 total
annotations. Our fine-tuned Transformer baselines show promising results, with
models performing well above random on most questions. However, on a large
subset of questions, there is still room for significant improvement. As the
only expert-annotated merger agreement dataset, MAUD is valuable as a benchmark
for both the legal profession and the NLP community.
- Abstract(参考訳): 法的文の理解は、法的条項の長さと複雑さ、専門家による注釈付きデータセットの不足などにより、特に困難な課題である。
この課題に対処するために,米国バー協会の2021年公開目標決定点研究に基づく専門家による注釈付き読解データセットであるMerger Agreement Understanding Dataset (MAUD)を導入し,39,000件以上のサンプルと47,000件以上の総アノテーションについて述べる。
微調整されたトランスフォーマーのベースラインは有望な結果を示し、ほとんどの質問でモデルはランダムに動作します。
しかし、多くの質問に対して、大きな改善の余地はまだあります。
唯一の専門家による合併合意データセットとして、MAUDは法律専門家とNLPコミュニティのベンチマークとして有用である。
関連論文リスト
- Challenges and Considerations in Annotating Legal Data: A Comprehensive Overview [0.6372911857214884]
本稿では,法的なデータアノテーションプロジェクトに従事する研究者や専門家に対して,基礎的な理解とガイダンスを提供することを目的とする。
法律文書は、しばしば複雑な構造、脚注、参照、ユニークな用語を持っている。
作成した、微調整されたデータセットと言語モデルへのリンクを提供します。
論文 参考訳(メタデータ) (2024-07-05T21:56:28Z) - AGB-DE: A Corpus for the Automated Legal Assessment of Clauses in German Consumer Contracts [4.427516854041417]
AGB-DE(AGB-DE)は、ドイツの消費者契約の3,764節のコーパスであり、法律の専門家によって注釈付けされ法的に評価されている。
我々は,SVMベースラインの性能を3つの細調整されたオープン言語モデルと比較し,GPT-3.5の性能を比較した。
誤りの分析は、主な課題の1つは、複雑な節の正しい解釈であることを示している。
論文 参考訳(メタデータ) (2024-06-10T21:27:13Z) - Legal Judgment Reimagined: PredEx and the Rise of Intelligent AI Interpretation in Indian Courts [6.339932924789635]
textbfPrediction with textbfExplanation (textttPredEx)は、インドの文脈における法的判断予測と説明のための、専門家による最大のデータセットである。
このコーパスは、法的分析におけるAIモデルのトレーニングと評価を大幅に強化する。
論文 参考訳(メタデータ) (2024-06-06T14:57:48Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Aspect-based Meeting Transcript Summarization: A Two-Stage Approach with
Weak Supervision on Sentence Classification [91.13086984529706]
Aspect-based meeting transcript summarization は複数の要約を生成することを目的としている。
従来の要約手法は、全ての側面の情報を1つの要約で混合する。
アスペクトベースの会議書き起こし要約のための2段階の手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T19:06:31Z) - Improving Query-Focused Meeting Summarization with Query-Relevant
Knowledge [71.14873115781366]
本稿では,その課題に対処するため,知識認識要約器(KAS)と呼ばれる知識強化2段階のフレームワークを提案する。
最初の段階では、クエリ関連セグメント抽出を改善するために知識認識スコアを導入します。
第2段階では,クエリ関連知識を要約生成に取り入れる。
論文 参考訳(メタデータ) (2023-09-05T10:26:02Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - Overview of the ICASSP 2023 General Meeting Understanding and Generation
Challenge (MUG) [60.09540662936726]
MUGには、トピックセグメンテーション、トピックレベルおよびセッションレベルの抽出要約、トピックタイトル生成、キーフレーズ抽出、アクションアイテム検出の5つのトラックが含まれている。
MUGを容易にするために,大規模なミーティングデータセットであるAliMeeting4MUG Corpusを構築し,リリースする。
論文 参考訳(メタデータ) (2023-03-24T11:42:19Z) - The Legal Argument Reasoning Task in Civil Procedure [2.079168053329397]
我々は,米国民事訴訟の領域から新たなNLPタスクとデータセットを提示する。
データセットの各インスタンスは、ケースの一般的な導入、特定の質問、可能な解決策引数で構成されている。
論文 参考訳(メタデータ) (2022-11-05T17:41:00Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - CUAD: An Expert-Annotated NLP Dataset for Legal Contract Review [12.253859107637728]
法的契約レビューのための新しいデータセットであるContract Understanding Atticusデータセット(CUAD)を紹介します。
CUADはThe Atticus Projectから数十名の法律専門家によって作成され、13,000以上のアノテーションで構成されている。
トランスフォーマーモデルの性能は初期段階にあるが,この性能はデータセットサイズに強く影響されている。
専門家によって注釈付けされた唯一の大規模で専門的なNLPベンチマークの1つとして、CUADはより広範なNLPコミュニティのための挑戦的な研究ベンチマークとして機能する。
論文 参考訳(メタデータ) (2021-03-10T18:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。