論文の概要: Not ready for the bench: LLM legal interpretation is unstable and out of step with human judgments
- arxiv url: http://arxiv.org/abs/2510.25356v1
- Date: Wed, 29 Oct 2025 10:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.396466
- Title: Not ready for the bench: LLM legal interpretation is unstable and out of step with human judgments
- Title(参考訳): LLMの法的解釈は不安定で、人間の判断で一歩外れている
- Authors: Abhishek Purushothama, Junghyun Min, Brandon Waldon, Nathan Schneider,
- Abstract要約: 近年の学問では、法的実践者が解釈ツールキットに大きな言語モデル(LLM)を追加することが提案されている。
この研究は、法学者や連邦判事が最近実施したLSM解釈に対する実証的な議論を提供する。
我々の英語調査は、モデルが安定した解釈判断を提供していないことを示している。
- 参考スコア(独自算出の注目度): 2.8622281002418357
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Legal interpretation frequently involves assessing how a legal text, as understood by an 'ordinary' speaker of the language, applies to the set of facts characterizing a legal dispute in the U.S. judicial system. Recent scholarship has proposed that legal practitioners add large language models (LLMs) to their interpretive toolkit. This work offers an empirical argument against LLM interpretation as recently practiced by legal scholars and federal judges. Our investigation in English shows that models do not provide stable interpretive judgments: varying the question format can lead the model to wildly different conclusions. Moreover, the models show weak to moderate correlation with human judgment, with large variance across model and question variant, suggesting that it is dangerous to give much credence to the conclusions produced by generative AI.
- Abstract(参考訳): 法律解釈は、しばしば、言語の「通常」話者によって理解されているように、法的テキストが、米国の司法制度における法的論争を特徴づける事実の集合にどのように適用されるかを評価することを含む。
近年の学問では、法的実践者が解釈ツールキットに大きな言語モデル(LLM)を追加することが提案されている。
この研究は、法学者や連邦判事が最近実施したLSM解釈に対する実証的な議論を提供する。
我々の英語調査は、モデルは安定した解釈的判断を与えていないことを示唆している。
さらに、モデルが人間の判断と適度な相関を示し、モデルと質問変異に大きなばらつきがあり、生成AIが生み出す結論に多くの信頼を与えるのは危険であることを示している。
関連論文リスト
- GLARE: Agentic Reasoning for Legal Judgment Prediction [60.13483016810707]
法学分野では、法的判断予測(LJP)がますます重要になっている。
既存の大規模言語モデル (LLM) には、法的な知識が不足しているため、推論に不十分な重大な問題がある。
GLAREは,異なるモジュールを呼び出し,重要な法的知識を動的に獲得するエージェント的法的推論フレームワークである。
論文 参考訳(メタデータ) (2025-08-22T13:38:12Z) - Conditioning Large Language Models on Legal Systems? Detecting Punishable Hate Speech [3.4300974012019148]
本稿では, 法体系における多段階の抽象化により, 潜在的に罰せられるヘイトスピーチを検出するために, LLM(Large Language Models)の条件付けに対する異なるアプローチについて検討する。
我々は、特定のソーシャルメディア投稿が、ドイツ刑事法で規定された憎しみに対する侮辱の犯罪行為に該当するか否かを分類するタスクに焦点をあてる。
その結果、モデルが条件付けられた抽象化のレベルに関係なく、ヘイトスピーチの法的評価において、モデルと法の専門家の間には依然として大きなパフォーマンスギャップがあることが判明した。
論文 参考訳(メタデータ) (2025-06-03T15:50:27Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。
この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - Automating Legal Interpretation with LLMs: Retrieval, Generation, and Evaluation [27.345475442620746]
ATRIEは法的概念解釈器と法的な概念解釈評価器から構成される。
私たちの解釈の質は、法の専門家によって書かれたものと同等であり、包括性と可読性に優れています。
精度に差はあるものの、法律実務者が法解釈の効率を改善するのに既に助けることができる。
論文 参考訳(メタデータ) (2025-01-03T10:11:38Z) - Legal Evalutions and Challenges of Large Language Models [42.51294752406578]
我々は,OPENAI o1モデルを事例研究として,法律規定の適用における大規模モデルの性能評価に利用した。
我々は、オープンソース、クローズドソース、および法律ドメインのために特別に訓練された法律固有のモデルを含む、最先端のLLMを比較します。
論文 参考訳(メタデータ) (2024-11-15T12:23:12Z) - Leveraging Large Language Models for Relevance Judgments in Legal Case Retrieval [16.29803062332164]
本稿では,大規模言語モデルによる専門家による関連判断の生成を支援する,数ショットのアプローチを提案する。
提案手法は,人間のアノテータのワークフローを模倣して,判断過程をいくつかの段階に分解する。
また、解釈可能なデータラベリングを保証し、関連性評価プロセスにおける透明性と明確性を提供します。
論文 参考訳(メタデータ) (2024-03-27T09:46:56Z) - Legal Syllogism Prompting: Teaching Large Language Models for Legal
Judgment Prediction [0.6091702876917281]
LoT(Lawal syllogism prompting)は、法的な判断の予測のために大きな言語モデルを教える単純なプロンプト法である。
LoTは法的なシロジズムにおいて、主要な前提は法であり、小さな前提は事実であり、結論は判断である、とのみ教えている。
以上の結果から, LoT を用いた LLM は,思考のベースラインや連鎖よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-17T08:38:46Z) - Exploiting Contrastive Learning and Numerical Evidence for Confusing
Legal Judgment Prediction [46.71918729837462]
訴訟の事実記述文を考慮し、法的判断予測は、事件の告訴、法律記事、刑期を予測することを目的としている。
従来の研究では、標準的なクロスエントロピー分類損失と異なる分類誤差を区別できなかった。
本稿では,モコに基づく教師付きコントラスト学習を提案する。
さらに,事前学習した数値モデルにより符号化された抽出された犯罪量による事実記述の表現をさらに強化する。
論文 参考訳(メタデータ) (2022-11-15T15:53:56Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。