論文の概要: AGB-DE: A Corpus for the Automated Legal Assessment of Clauses in German Consumer Contracts
- arxiv url: http://arxiv.org/abs/2406.06809v1
- Date: Mon, 10 Jun 2024 21:27:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 20:05:58.659572
- Title: AGB-DE: A Corpus for the Automated Legal Assessment of Clauses in German Consumer Contracts
- Title(参考訳): AGB-DE:ドイツの消費者契約における訴訟自動評価コーパス
- Authors: Daniel Braun, Florian Matthes,
- Abstract要約: AGB-DE(AGB-DE)は、ドイツの消費者契約の3,764節のコーパスであり、法律の専門家によって注釈付けされ法的に評価されている。
我々は,SVMベースラインの性能を3つの細調整されたオープン言語モデルと比較し,GPT-3.5の性能を比較した。
誤りの分析は、主な課題の1つは、複雑な節の正しい解釈であることを示している。
- 参考スコア(独自算出の注目度): 4.427516854041417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Legal tasks and datasets are often used as benchmarks for the capabilities of language models. However, openly available annotated datasets are rare. In this paper, we introduce AGB-DE, a corpus of 3,764 clauses from German consumer contracts that have been annotated and legally assessed by legal experts. Together with the data, we present a first baseline for the task of detecting potentially void clauses, comparing the performance of an SVM baseline with three fine-tuned open language models and the performance of GPT-3.5. Our results show the challenging nature of the task, with no approach exceeding an F1-score of 0.54. While the fine-tuned models often performed better with regard to precision, GPT-3.5 outperformed the other approaches with regard to recall. An analysis of the errors indicates that one of the main challenges could be the correct interpretation of complex clauses, rather than the decision boundaries of what is permissible and what is not.
- Abstract(参考訳): 法的タスクとデータセットは、しばしば言語モデルの能力のベンチマークとして使用される。
しかし、公開されている注釈付きデータセットはまれである。
本稿では,ドイツの消費者契約の3,764節のコーパスであるAGB-DEを紹介する。
これらのデータと合わせて,SVMベースラインの性能を3つの細調整されたオープン言語モデルとGPT-3.5の性能と比較し,潜在的に無効な節を検出するタスクのための第1のベースラインを提案する。
その結果,F1スコア0.54を超えるアプローチは行わず,課題の難易度を示した。
細調整されたモデルでは精度が良くなったが、GPT-3.5はリコールに関して他の手法よりも優れていた。
誤りの分析は、何が許容可能で何がそうでないかという決定境界よりも、複雑な節の正しい解釈が主な課題の1つであることを示している。
関連論文リスト
- LegalPro-BERT: Classification of Legal Provisions by fine-tuning BERT Large Language Model [0.0]
契約分析は、合意の範囲内で重要な規定及び段落の識別及び分類を必要とする。
LegalPro-BERTはBERTトランスフォーマーアーキテクチャモデルであり、法定条項の分類処理を効率的に行うために微調整を行う。
論文 参考訳(メタデータ) (2024-04-15T19:08:48Z) - Resolving Legalese: A Multilingual Exploration of Negation Scope
Resolution in Legal Documents [3.8467652838774873]
法的テキストの複雑さと注釈付きドメイン内否定コーパスの欠如は、最先端(SotA)モデルに課題をもたらす。
本実験は, 法的なデータを持たない事前学習モデルにおいて, 否定範囲解決の課題において過小評価されていることを示す。
我々は、ドイツ語、フランス語、イタリア語で注釈付き裁判所決定のセットを新たにリリースし、ゼロショットとマルチランガルの両方の設定における否定範囲の解決を改善するためにそれを使用します。
論文 参考訳(メタデータ) (2023-09-15T18:38:06Z) - A negation detection assessment of GPTs: analysis with the xNot360
dataset [9.165119034384027]
否定は自然言語の基本的側面であり、コミュニケーションと理解において重要な役割を果たす。
我々は,xNot360データセットに適用したゼロショット予測手法を用いて,自然言語における否定の識別に焦点を当てた。
GPT-4はGPT-3.5を上回り,GPT-3.5は顕著な性能低下を示した。
論文 参考訳(メタデータ) (2023-06-29T02:27:48Z) - Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation [20.675242617417677]
言語横断要約(CLCTS)は、文化的アクセシビリティと理解を向上する可能性を持つ、ほとんど探索されていない領域である。
本稿では、データセット作成、モデリング、評価を含むCLCTSタスクを包括的に扱う。
論文 参考訳(メタデータ) (2023-06-22T14:31:18Z) - A Survey on Zero Pronoun Translation [69.09774294082965]
ゼロ代名詞(ZP)はプロドロップ言語では省略されることが多いが、非プロドロップ言語ではリコールされるべきである。
本研究は, 神経革命後のゼロ代名詞翻訳(ZPT)における主要な研究について述べる。
1) ZPTは大規模言語モデルの発展傾向と一致している; 2) データの制限は言語やドメインの学習バイアスを引き起こす; 3) 性能改善は単一のベンチマークで報告されることが多いが、高度な手法はまだ実世界の利用には程遠い。
論文 参考訳(メタデータ) (2023-05-17T13:19:01Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.166794984161964]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。
一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。
しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文 参考訳(メタデータ) (2023-03-27T22:30:39Z) - Prompted Opinion Summarization with GPT-3.5 [115.95460650578678]
GPT-3.5モデルは人体評価において非常に高い性能を示す。
我々は,標準評価指標がこれを反映していないことを論じ,忠実性,事実性,汎用性を重視した3つの新しい指標を導入する。
論文 参考訳(メタデータ) (2022-11-29T04:06:21Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - Elaboration-Generating Commonsense Question Answering at Scale [77.96137534751445]
一般的な感覚を必要とする質問応答では、言語モデル(例えばGPT-3)が背景知識を表すテキストを生成するために使われてきた。
より小さな言語モデルを微調整して有用な中間コンテキストを生成します。
私たちのフレームワークは、2つの言語モデルの更新 – 開発中のジェネレータと応答予測器 – を交互に行います。
論文 参考訳(メタデータ) (2022-09-02T18:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。