論文の概要: Better Call CLAUSE: A Discrepancy Benchmark for Auditing LLMs Legal Reasoning Capabilities
- arxiv url: http://arxiv.org/abs/2511.00340v1
- Date: Sat, 01 Nov 2025 00:51:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.724919
- Title: Better Call CLAUSE: A Discrepancy Benchmark for Auditing LLMs Legal Reasoning Capabilities
- Title(参考訳): より良いコールCLAUSE: LLMの法的推論能力を評価するための相違ベンチマーク
- Authors: Manan Roy Choudhury, Adithya Chandramouli, Mannan Anand, Vivek Gupta,
- Abstract要約: CLAUSE は LLM の法的な推論の脆弱性を評価するために設計された第一種ベンチマークである。
我々の研究は、法的AIにおけるそのような推論失敗を特定し、修正する道筋を概説している。
- 参考スコア(独自算出の注目度): 15.35489310097019
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid integration of large language models (LLMs) into high-stakes legal work has exposed a critical gap: no benchmark exists to systematically stress-test their reliability against the nuanced, adversarial, and often subtle flaws present in real-world contracts. To address this, we introduce CLAUSE, a first-of-its-kind benchmark designed to evaluate the fragility of an LLM's legal reasoning. We study the capabilities of LLMs to detect and reason about fine-grained discrepancies by producing over 7500 real-world perturbed contracts from foundational datasets like CUAD and ContractNLI. Our novel, persona-driven pipeline generates 10 distinct anomaly categories, which are then validated against official statutes using a Retrieval-Augmented Generation (RAG) system to ensure legal fidelity. We use CLAUSE to evaluate leading LLMs' ability to detect embedded legal flaws and explain their significance. Our analysis shows a key weakness: these models often miss subtle errors and struggle even more to justify them legally. Our work outlines a path to identify and correct such reasoning failures in legal AI.
- Abstract(参考訳): 大規模言語モデル(LLM)を高額な法的作業に迅速に統合することは、重大なギャップを露呈している: 現実の契約に存在する、曖昧で、逆境的で、しばしば微妙な欠陥に対して、その信頼性を体系的にストレステストするベンチマークは存在しない。
そこで本研究では,LLMの法的な推論の脆弱性を評価するために,第一種ベンチマークであるCLAUSEを紹介する。
CUADやContractNLIといった基礎データセットから,7500以上の現実の摂動契約を生成することで,LLMの微細な不一致の検出と推論能力について検討する。
当社の新規なペルソナ駆動パイプラインは,10の異なる異常カテゴリを生成し,法的な忠実性を確保するために,レトリーバル拡張世代(RAG)システムを用いて公式な法令に対して検証する。
我々はCLAUSEを用いて,組込み法的欠陥を検知し,その意義を説明するLLMの先導的能力を評価する。
これらのモデルはしばしば微妙な誤りを見逃し、法的に正当化するためにさらに苦労する。
我々の研究は、法的AIにおけるそのような推論失敗を特定し、修正する道筋を概説している。
関連論文リスト
- LLMs as verification oracles for Solidity [1.3887048755037537]
本稿では,この役割において,最先端の推論LLMである GPT-5 を初めて体系的に評価する。
我々は,大規模な検証タスクのデータセット上でその性能をベンチマークし,その出力を確立された形式的検証ツールと比較し,実世界の監査シナリオにおける実効性を評価する。
我々の研究は、AIの収束における新たなフロンティアと、セキュアなスマートコントラクト開発と監査のための形式的手法を示唆している。
論文 参考訳(メタデータ) (2025-09-23T15:32:13Z) - SoK: Large Language Model Copyright Auditing via Fingerprinting [69.14570598973195]
既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。
現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
論文 参考訳(メタデータ) (2025-08-27T12:56:57Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - AUTOLAW: Enhancing Legal Compliance in Large Language Models via Case Law Generation and Jury-Inspired Deliberation [5.732271982985626]
AutoLawは、ドメイン固有の大規模言語モデル(LLM)のための新しい違反検出フレームワークである。
LLMの法的コンプライアンスを強化するために、敵対的なデータ生成と陪審に触発された審議プロセスを組み合わせる。
本研究は, 法的不一致を適応的に調査し, 信頼性の高い文脈対応の判断を下すフレームワークの能力を強調した。
論文 参考訳(メタデータ) (2025-05-20T07:09:13Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - J&H: Evaluating the Robustness of Large Language Models Under Knowledge-Injection Attacks in Legal Domain [12.550611136062722]
本稿では,ロバストネステストのための法的な知識注入攻撃法を提案する。
本フレームワークの目的は,LLMが法的タスクを遂行する際の演能的推論を行うかどうかを検討することである。
我々は、法律の専門家が現実世界の司法判断で犯す可能性のある誤りを収集した。
論文 参考訳(メタデータ) (2025-03-24T05:42:05Z) - Investigating the Shortcomings of LLMs in Step-by-Step Legal Reasoning [34.427730009102966]
推論誤りを特定し,LLMの性能を評価するための自動評価フレームワークを開発した。
我々の研究は、論理集約的な複雑なタスクに対する推論チェーンの詳細なエラー解析に使用できる評価フレームワークとしても機能する。
論文 参考訳(メタデータ) (2025-02-08T19:49:32Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。