論文の概要: CHANCERY: Evaluating Corporate Governance Reasoning Capabilities in Language Models
- arxiv url: http://arxiv.org/abs/2506.04636v2
- Date: Thu, 12 Jun 2025 03:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 13:18:14.114134
- Title: CHANCERY: Evaluating Corporate Governance Reasoning Capabilities in Language Models
- Title(参考訳): CHANCERY: 言語モデルにおけるコーポレートガバナンスの推論能力の評価
- Authors: Lucas Irwin, Arda Kaz, Peiyao Sheng, Sewoong Oh, Pramod Viswanath,
- Abstract要約: 我々は、経営陣/取締役会/株主の提案した行動が企業ガバナンス憲章と一致しているかどうかをモデルが判断する能力をテストするために、企業ガバナンス推論ベンチマーク(CHANCERY)を導入します。
ベンチマークは、コーポレート・チャーター(コーポレート・コベナントのセット)とエグゼクティブ・アクションの提案から成っている。
最先端推論モデル(SOTA)の評価ではベンチマークの難しさが確認され、Claude 3.7 Sonnet や GPT-4o がそれぞれ 64.5% と 75.2% の精度で評価された。
- 参考スコア(独自算出の注目度): 30.288227578616905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Law has long been a domain that has been popular in natural language processing (NLP) applications. Reasoning (ratiocination and the ability to make connections to precedent) is a core part of the practice of the law in the real world. Nevertheless, while multiple legal datasets exist, none have thus far focused specifically on reasoning tasks. We focus on a specific aspect of the legal landscape by introducing a corporate governance reasoning benchmark (CHANCERY) to test a model's ability to reason about whether executive/board/shareholder's proposed actions are consistent with corporate governance charters. This benchmark introduces a first-of-its-kind corporate governance reasoning test for language models - modeled after real world corporate governance law. The benchmark consists of a corporate charter (a set of governing covenants) and a proposal for executive action. The model's task is one of binary classification: reason about whether the action is consistent with the rules contained within the charter. We create the benchmark following established principles of corporate governance - 24 concrete corporate governance principles established in and 79 real life corporate charters selected to represent diverse industries from a total dataset of 10k real life corporate charters. Evaluations on state-of-the-art (SOTA) reasoning models confirm the difficulty of the benchmark, with models such as Claude 3.7 Sonnet and GPT-4o achieving 64.5% and 75.2% accuracy respectively. Reasoning agents exhibit superior performance, with agents based on the ReAct and CodeAct frameworks scoring 76.1% and 78.1% respectively, further confirming the advanced legal reasoning capabilities required to score highly on the benchmark. We also conduct an analysis of the types of questions which current reasoning models struggle on, revealing insights into the legal reasoning capabilities of SOTA models.
- Abstract(参考訳): 法律は長年、自然言語処理(NLP)アプリケーションで人気を博してきた分野である。
放火(れいそん、英: Reasoning)とは、現実世界における法律の実践の核となる部分である。
それでも、複数の法的データセットが存在するが、今のところ推論タスクに特化しているものはない。
我々は,企業ガバナンス推論ベンチマーク(CHANCERY)を導入して,経営陣・取締役会・株主の提案した行動が企業ガバナンスの認証と整合しているかどうかをモデルが判断する能力をテストすることによって,法的な状況の特定の側面に焦点を当てる。
このベンチマークでは、言語モデルに対する最初の企業ガバナンス推論テストを紹介します。
ベンチマークは、コーポレート・チャーター(コーポレート・コベナントのセット)とエグゼクティブ・アクションの提案から成っている。
モデルのタスクはバイナリ分類の1つであり、アクションがチャーターに含まれるルールと一致しているかどうかの理由である。
企業ガバナンスの確立された原則に従って、私たちは、24の具体的な企業ガバナンス原則、および10万のリアルライフコーポレートチャーターのデータセットから、多様な産業を表現するために選択された79のリアルライフコーポレートチャーターのベンチマークを作成します。
最先端推論モデル(SOTA)の評価ではベンチマークの難しさが確認され、Claude 3.7 Sonnet や GPT-4o がそれぞれ 64.5% と 75.2% の精度で評価された。
推論エージェントは優れたパフォーマンスを示し、ReActフレームワークとCodeActフレームワークに基づくエージェントはそれぞれ76.1%と78.1%を記録し、さらにベンチマークで高いスコアを得るために必要な高度な法的推論能力を確認する。
我々はまた、現在の推論モデルが抱える問題の種類を分析し、SOTAモデルの法的推論能力に関する洞察を明らかにする。
関連論文リスト
- RLJP: Legal Judgment Prediction via First-Order Logic Rule-enhanced with Large Language Models [58.69183479148083]
法的判断予測(LJP)は、法的AIにおいて重要な課題である。
既存のLJPモデルは、高いパフォーマンスのために司法上の前例と法的な知識を統合している。
しかし彼らは、厳密な論理分析を必要とする法的判断の重要な要素である法的推論論理を無視している。
本稿では、一階述語論理(FOL)形式と比較学習(CL)に基づく規則強化された法的判断予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-27T14:50:21Z) - Legal Rule Induction: Towards Generalizable Principle Discovery from Analogous Judicial Precedents [39.35255423087048]
法規は、法典の定式化だけでなく、差別的規範、社会的道徳、政策を含む前例から派生した暗黙の偏見的原則も含んでいる。
我々は、類似した前例の集合から簡潔で一般化可能なドクトリン規則を導出するタスクとして法則帰納法(LRI)を定式化する。
モデルチューニングのための5,121のケースセット(合計38,088のケース)と216のエキスパートアノテートゴールドテストセットからなる最初のLRIベンチマークを導入する。
論文 参考訳(メタデータ) (2025-05-20T09:10:52Z) - A Law Reasoning Benchmark for LLM with Tree-Organized Structures including Factum Probandum, Evidence and Experiences [76.73731245899454]
本稿では,階層的なファクトラム,証拠,暗黙的な経験に富む透明な法理推論スキーマを提案する。
このスキーマにインスパイアされた課題は、テキストのケース記述を取り込み、最終決定を正当化する階層構造を出力する。
このベンチマークは、Intelligent Courtにおける透明で説明可能なAI支援法推論の道を開く」。
論文 参考訳(メタデータ) (2025-03-02T10:26:54Z) - AnnoCaseLaw: A Richly-Annotated Dataset For Benchmarking Explainable Legal Judgment Prediction [56.797874973414636]
AnnoCaseLawは、アメリカ合衆国控訴裁判所の無視事件を慎重に注釈付けした471のデータセットである。
我々のデータセットは、より人間らしく説明可能な法的な判断予測モデルの基礎となる。
その結果、LJPは依然として厳しい課題であり、法的な前例の適用は特に困難であることが示されている。
論文 参考訳(メタデータ) (2025-02-28T19:14:48Z) - How Vital is the Jurisprudential Relevance: Law Article Intervened Legal Case Retrieval and Matching [31.378981566988063]
法的ケース検索(LCR)は、与えられたクエリに基づいて、同等の法的ケースを自動的に検索することを目的としている。
これに対処するためには、司法ドメイン内の独自の法的・合理的な類似性を評価するのが難しい課題だ。
上記の課題を解決するために, LCM-LAI というエンド・ツー・エンドのモデルを提案する。
論文 参考訳(メタデータ) (2025-02-25T15:29:07Z) - LegalSeg: Unlocking the Structure of Indian Legal Judgments Through Rhetorical Role Classification [6.549338652948716]
7000以上の文書と140万の文で構成され、7つの修辞的な役割をラベル付けした、このタスクのための最大の注釈付きデータセットであるLegalSegを紹介します。
以上の結果から,より広義の文脈,構造的関係,逐次的な文情報を含むモデルが,文レベルの特徴にのみ依存するモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-09T10:07:05Z) - Three Decades of Formal Methods in Business Process Compliance: A Systematic Literature Review [0.0]
デジタル化の取り組みは、しばしば重要な課題に直面している。
本研究は,コンプライアンスの検証や保証に形式的手法を用いた厳密なフレームワークに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-13T21:19:57Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Transformer-based Entity Legal Form Classification [43.75590166844617]
本稿では,形式分類のためのトランスフォーマーに基づく言語モデルを提案する。
BERTのバリエーションを多用し、その性能を従来の複数のベースラインと比較する。
以上の結果から,事前学習したBERT変種は従来のテキスト分類法よりもF1スコアで優れていた。
論文 参考訳(メタデータ) (2023-10-19T14:11:43Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - Do Charge Prediction Models Learn Legal Theory? [59.74220430434435]
我々は、信頼できる電荷予測モデルが法的理論を考慮に入れるべきであると主張している。
本稿では,この課題に従わなければならない信頼に値するモデルの3つの原則を提案する。
以上の結果から,既存の電荷予測モデルはベンチマークデータセットの選択的原理に合致するが,そのほとんどが十分な感度が得られず,無害の予測を満たさないことが示唆された。
論文 参考訳(メタデータ) (2022-10-31T07:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。