論文の概要: ContractEval: Benchmarking LLMs for Clause-Level Legal Risk Identification in Commercial Contracts
- arxiv url: http://arxiv.org/abs/2508.03080v1
- Date: Tue, 05 Aug 2025 04:53:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.78146
- Title: ContractEval: Benchmarking LLMs for Clause-Level Legal Risk Identification in Commercial Contracts
- Title(参考訳): ContractEval: 商業契約におけるクロースレベル法リスク識別のためのLLMのベンチマーク
- Authors: Shuang Liu, Zelong Li, Ruoyun Ma, Haiyan Zhao, Mengnan Du,
- Abstract要約: 法的なリスク分析のような専門分野における大規模言語モデル(LLM)の可能性はいまだ未解明である。
本稿では,オープンソース LLM が商用契約における条項レベルの法的リスクを特定する上で,プロプライエタリ LLM に適合するかどうかを徹底的に評価する最初のベンチマークである ContractEval を紹介する。
- 参考スコア(独自算出の注目度): 21.217188970086344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The potential of large language models (LLMs) in specialized domains such as legal risk analysis remains underexplored. In response to growing interest in locally deploying open-source LLMs for legal tasks while preserving data confidentiality, this paper introduces ContractEval, the first benchmark to thoroughly evaluate whether open-source LLMs could match proprietary LLMs in identifying clause-level legal risks in commercial contracts. Using the Contract Understanding Atticus Dataset (CUAD), we assess 4 proprietary and 15 open-source LLMs. Our results highlight five key findings: (1) Proprietary models outperform open-source models in both correctness and output effectiveness, though some open-source models are competitive in certain specific dimensions. (2) Larger open-source models generally perform better, though the improvement slows down as models get bigger. (3) Reasoning ("thinking") mode improves output effectiveness but reduces correctness, likely due to over-complicating simpler tasks. (4) Open-source models generate "no related clause" responses more frequently even when relevant clauses are present. This suggests "laziness" in thinking or low confidence in extracting relevant content. (5) Model quantization speeds up inference but at the cost of performance drop, showing the tradeoff between efficiency and accuracy. These findings suggest that while most LLMs perform at a level comparable to junior legal assistants, open-source models require targeted fine-tuning to ensure correctness and effectiveness in high-stakes legal settings. ContractEval offers a solid benchmark to guide future development of legal-domain LLMs.
- Abstract(参考訳): 法的なリスク分析のような専門分野における大規模言語モデル(LLM)の可能性はいまだ未解明である。
データ機密性を保ちながら、法的タスクのためのオープンソースLLMをローカルに展開することへの関心が高まっている中で、商用契約における条項レベルの法的リスクを特定するために、オープンソースLLMがプロプライエタリなLLMと一致するかどうかを徹底的に評価する最初のベンチマークであるContractEvalを紹介した。
Contract Understanding Atticus Dataset (CUAD)を用いて、4つのプロプライエタリおよび15のオープンソースLCMを評価します。
1) 特定の特定の次元において競合するオープンソースモデルもあるが, プロプライエタリモデルは, 正確性および出力効率の両方でオープンソースモデルより優れる。
2) より大規模なオープンソースモデルは、一般的にはパフォーマンスが向上するが、モデルが大きくなるにつれて改善が遅くなる。
(3)Reasoning(思考)モードは出力効率を向上するが、より単純なタスクが過度に複雑になるため、正確さを低下させる。
(4)関連節が存在する場合でも,オープンソースモデルは「関連節なし」応答をより頻繁に生成する。
これは、思考における「怠慢」や、関連するコンテンツを抽出する際の信頼度が低いことを示唆している。
(5)モデル量子化は推論を高速化するが、性能低下のコストで効率と精度のトレードオフを示す。
これらの結果から,ほとんどのLCMは中等法定アシスタントに匹敵するレベルにおいて機能するが,オープンソースモデルでは,高精度な法定設定における正当性と有効性を確保するために,目標とする微調整が必要であることが示唆された。
ContractEvalは、法的なドメイン LLM の今後の開発をガイドする、しっかりとしたベンチマークを提供する。
関連論文リスト
- Nine Ways to Break Copyright Law and Why Our LLM Won't: A Fair Use Aligned Generation Framework [7.941114118462577]
大規模言語モデル (LLM) は、保護されたコンテンツを冗長に再現したり、変換に不十分な修正を加えて著作権侵害を犯すのが一般的である。
我々は、LLM出力とフェアユース・ドクトリンとの整合性を明示的に設計した法的基盤の枠組みを開発する。
FuA-LLMは最先端のアプローチと比較して、問題のある出力(最大20%)を大幅に削減する。
論文 参考訳(メタデータ) (2025-05-25T12:23:26Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - LawGPT: Knowledge-Guided Data Generation and Its Application to Legal LLM [41.31814587755912]
本稿では,法的推論のための知識誘導型データ生成フレームワークを提案する。
当社の枠組みは,法的な知識を活用して生成の多様性を高めることを可能にし,改良と検証プロセスを導入する。
我々の学習モデルであるLawGPTは、既存の法的なLLMよりも優れており、プロプライエタリなLLMに匹敵する性能を実現している。
論文 参考訳(メタデータ) (2025-02-10T15:40:35Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Boosting LLM-based Relevance Modeling with Distribution-Aware Robust Learning [14.224921308101624]
本稿では,関係モデリングのための新しい分布認識ロバスト学習フレームワーク(DaRL)を提案する。
DaRLはAlipayの保険商品検索のためにオンラインで展開されている。
論文 参考訳(メタデータ) (2024-12-17T03:10:47Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - LiCoEval: Evaluating LLMs on License Compliance in Code Generation [27.368667936460508]
大規模言語モデル(LLM)はコード生成に革命をもたらし、開発者によるAIコーディングツールの普及につながった。
LLMは、ライセンス情報を提供することなくライセンス保護されたコードを生成することができ、ソフトウェア製造中に知的財産権侵害を引き起こす可能性がある。
本稿では,LLM生成コードにおけるライセンスコンプライアンスの重要かつ未解明な問題に対処する。
論文 参考訳(メタデータ) (2024-08-05T14:09:30Z) - FOFO: A Benchmark to Evaluate LLMs' Format-Following Capability [70.84333325049123]
FoFoは、大規模言語モデル(LLM)の複雑なドメイン固有のフォーマットに従う能力を評価するための先駆的なベンチマークである。
本稿では,大規模言語モデル(LLM)の複雑なドメイン固有フォーマットに従う能力を評価するための先駆的ベンチマークであるFoFoを提案する。
論文 参考訳(メタデータ) (2024-02-28T19:23:27Z) - Identifying Factual Inconsistencies in Summaries: Grounding LLM Inference via Task Taxonomy [48.29181662640212]
事実的矛盾は、生成モデルによる忠実な要約にとって重要なハードルとなる。
我々は,要約中の不整合事実のキーエラータイプを集約し,ゼロショットと教師付きパラダイムの両方を容易にするためにそれらを組み込んだ。
論文 参考訳(メタデータ) (2024-02-20T08:41:23Z) - Building Real-World Meeting Summarization Systems using Large Language
Models: A Practical Perspective [8.526956860672698]
本稿では,大規模言語モデル(LLM)を用いた実世界利用のための会議要約システムを効果的に構築する方法について検討する。
以上の結果から,ほとんどのクローズドソース LLM は性能的に優れていることが判明した。
LLaMA-2 (7Bと13B) のようなより小さなオープンソースモデルは、ゼロショットシナリオでも大きなクローズドソースモデルに匹敵するパフォーマンスを達成することができた。
論文 参考訳(メタデータ) (2023-10-30T02:25:21Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。