論文の概要: Are LLMs Court-Ready? Evaluating Frontier Models on Indian Legal Reasoning
- arxiv url: http://arxiv.org/abs/2510.17900v1
- Date: Sun, 19 Oct 2025 10:04:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.331484
- Title: Are LLMs Court-Ready? Evaluating Frontier Models on Indian Legal Reasoning
- Title(参考訳): LLMは裁判所対応か? インドの法律推論におけるフロンティアモデルの評価
- Authors: Kush Juvekar, Arghya Bhattacharya, Sai Khadloya, Utkarsh Saxena,
- Abstract要約: 私たちは、インドの公的な司法試験を透明な代理として利用しています。
私たちのベンチマークは、国家試験と国家試験の客観的な画面をまとめたものです。
我々はまた、最高裁判所のAdvocate-on-Record試験による長文の回答について、弁護士に格付けされた、ペアの書面による研究も含んでいる。
- 参考スコア(独自算出の注目度): 0.5308136763388956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are entering legal workflows, yet we lack a jurisdiction-specific framework to assess their baseline competence therein. We use India's public legal examinations as a transparent proxy. Our multi-year benchmark assembles objective screens from top national and state exams and evaluates open and frontier LLMs under real-world exam conditions. To probe beyond multiple-choice questions, we also include a lawyer-graded, paired-blinded study of long-form answers from the Supreme Court's Advocate-on-Record exam. This is, to our knowledge, the first exam-grounded, India-specific yardstick for LLM court-readiness released with datasets and protocols. Our work shows that while frontier systems consistently clear historical cutoffs and often match or exceed recent top-scorer bands on objective exams, none surpasses the human topper on long-form reasoning. Grader notes converge on three reliability failure modes: procedural or format compliance, authority or citation discipline, and forum-appropriate voice and structure. These findings delineate where LLMs can assist (checks, cross-statute consistency, statute and precedent lookups) and where human leadership remains essential: forum-specific drafting and filing, procedural and relief strategy, reconciling authorities and exceptions, and ethical, accountable judgment.
- Abstract(参考訳): 大規模言語モデル(LLM)は法的ワークフローに入りつつありますが、その基盤となる能力を評価するための管轄的な枠組みは欠如しています。
私たちは、インドの公的な司法試験を透明な代理として利用しています。
当社のマルチ年次ベンチマークでは,全国および州のトップ試験の客観的画面を集計し,実世界試験条件下でのオープン・フロンティアLCMの評価を行った。
複数票の質問を超えて調査するためには、最高裁判所の上級試験からの長文の回答を、弁護士が評価し、ペアで研究することも含まれる。
これは、私たちの知る限り、LLMの法廷準備のためにデータセットとプロトコルがリリースされた最初の試験場、インド固有のヤードスティックです。
我々の研究は、フロンティアシステムが一貫して歴史的カットオフを明確にし、しばしば客観的な試験で最近のトップスカラーバンドと一致または超えるが、ロングフォームな推論では人間に勝ることはないことを示している。
グレーダーノートは、手続き的または形式的コンプライアンス、権威または引用の規律、フォーラムに適した音声と構造という3つの信頼性障害モードに収束する。
これらの発見は、LLMが支援できる場所(チェック、横断的整合性、法令および前例の見直し)と、人間のリーダーシップが不可欠である場所(フォーラム固有の起草と提出、手続き的および救済戦略、当局と例外の調整、倫理的、説明可能な判断)を明確にしている。
関連論文リスト
- LexGenius: An Expert-Level Benchmark for Large Language Models in Legal General Intelligence [74.05988707492058]
法務総合知能(ぎょうげんがく、英語: Legal General Intelligence, GI)とは、法的な理解、推論、意思決定を含む人工知能(AI)のこと。
既存のベンチマークは結果指向であり、大規模言語モデル(LLM)の法的なインテリジェンスを体系的に評価することができない。
我々は、LLMにおける法GIを評価するための専門家レベルの中国の法定ベンチマークであるLexGeniusを提案する。
論文 参考訳(メタデータ) (2025-12-04T08:48:02Z) - LLM-as-a-Judge is Bad, Based on AI Attempting the Exam Qualifying for the Member of the Polish National Board of Appeal [34.008574054602356]
本報告では,公益調達法に関する知識試験と判決書を含む試験の構造について述べる。
いくつかのLCMはクローズドブックと様々なRetrieval-Augmented Generation設定でテストされた。
その結果,本モデルは知識テストで満足度を達成できたが,実用書面の通過しきい値には達しなかった。
論文 参考訳(メタデータ) (2025-11-06T09:11:20Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。
この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - AnnoCaseLaw: A Richly-Annotated Dataset For Benchmarking Explainable Legal Judgment Prediction [56.797874973414636]
AnnoCaseLawは、アメリカ合衆国控訴裁判所の無視事件を慎重に注釈付けした471のデータセットである。
我々のデータセットは、より人間らしく説明可能な法的な判断予測モデルの基礎となる。
その結果、LJPは依然として厳しい課題であり、法的な前例の適用は特に困難であることが示されている。
論文 参考訳(メタデータ) (2025-02-28T19:14:48Z) - LegalBench.PT: A Benchmark for Portuguese Law [17.554201334646056]
ポルトガル法の主要な領域をカバーする最初の総合的な法定ベンチマークである LegalBench.PT を提示する。
まず、実法試験から長文の質問と回答を収集し、次に、GPT-4oを使って、それらを多重選択、真/偽、マッチングフォーマットに変換する。
論文 参考訳(メタデータ) (2025-02-22T21:07:12Z) - Legal Evalutions and Challenges of Large Language Models [42.51294752406578]
我々は,OPENAI o1モデルを事例研究として,法律規定の適用における大規模モデルの性能評価に利用した。
我々は、オープンソース、クローズドソース、および法律ドメインのために特別に訓練された法律固有のモデルを含む、最先端のLLMを比較します。
論文 参考訳(メタデータ) (2024-11-15T12:23:12Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - Interpretable Long-Form Legal Question Answering with
Retrieval-Augmented Large Language Models [10.834755282333589]
長文の法的問合せデータセットは、専門家によるフランス語の法的質問1,868件からなる。
実験結果から,自動評価指標について有望な性能を示した。
LLeQAは、専門家によって注釈付けされた唯一の包括的なロングフォームLQAデータセットの1つであり、重要な現実世界の問題を解決するために研究を加速するだけでなく、特殊な領域におけるNLPモデルを評価するための厳密なベンチマークとしても機能する可能性がある。
論文 参考訳(メタデータ) (2023-09-29T08:23:19Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。