論文の概要: Rethinking Legal Judgement Prediction in a Realistic Scenario in the Era of Large Language Models
- arxiv url: http://arxiv.org/abs/2410.10542v1
- Date: Mon, 14 Oct 2024 14:22:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 20:55:06.362119
- Title: Rethinking Legal Judgement Prediction in a Realistic Scenario in the Era of Large Language Models
- Title(参考訳): 大規模言語モデルにおける現実的シナリオにおける法的判断予測の再考
- Authors: Shubham Kumar Nigam, Aniket Deroy, Subhankar Maity, Arnab Bhattacharya,
- Abstract要約: 本研究ではインドにおける判断の文脈における現実的なシナリオにおける判断予測について検討する。
我々は,Llama-2 や GPT-3.5 Turbo などの LLM とともに,InLegalBERT,BERT,XLNet などのトランスフォーマーベースモデルを用いている。
LLMを用いた実験により, GPT-3.5 Turboは現実的なシナリオで優れており, 判定精度は高いことがわかった。
- 参考スコア(独自算出の注目度): 3.552993426200889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates judgment prediction in a realistic scenario within the context of Indian judgments, utilizing a range of transformer-based models, including InLegalBERT, BERT, and XLNet, alongside LLMs such as Llama-2 and GPT-3.5 Turbo. In this realistic scenario, we simulate how judgments are predicted at the point when a case is presented for a decision in court, using only the information available at that time, such as the facts of the case, statutes, precedents, and arguments. This approach mimics real-world conditions, where decisions must be made without the benefit of hindsight, unlike retrospective analyses often found in previous studies. For transformer models, we experiment with hierarchical transformers and the summarization of judgment facts to optimize input for these models. Our experiments with LLMs reveal that GPT-3.5 Turbo excels in realistic scenarios, demonstrating robust performance in judgment prediction. Furthermore, incorporating additional legal information, such as statutes and precedents, significantly improves the outcome of the prediction task. The LLMs also provide explanations for their predictions. To evaluate the quality of these predictions and explanations, we introduce two human evaluation metrics: Clarity and Linking. Our findings from both automatic and human evaluations indicate that, despite advancements in LLMs, they are yet to achieve expert-level performance in judgment prediction and explanation tasks.
- Abstract(参考訳): InLegalBERT, BERT, XLNet などのトランスフォーマーモデルと Llama-2 や GPT-3.5 Turbo などの LLM モデルを用いて,インドにおける判断の文脈における現実的なシナリオにおける判断予測について検討した。
この現実的なシナリオでは、事件の事実、法令、前例、議論など、当時の情報のみを用いて、事件が裁判所で決定のために提示された時点での判断がどのように予測されるかをシミュレートする。
このアプローチは、過去の研究でよく見られる振り返り分析とは異なり、後見の利益なしに意思決定をしなければならない現実世界の条件を模倣する。
変圧器モデルに対しては,階層型変圧器と判断事実の要約を用いて実験を行い,これらのモデルに対する入力を最適化する。
LLMを用いた実験により, GPT-3.5 Turboは現実的なシナリオで優れており, 判定精度は高いことがわかった。
さらに、法令や前例などの追加の法的情報を取り入れることで、予測課題の成果が大幅に向上する。
LLMは予測についての説明も提供している。
これらの予測と説明の質を評価するために,ClarityとLinkingという2つの人的評価指標を導入する。
自動評価と人的評価の両方から, LLMの進歩にもかかわらず, 判定・説明作業において, 専門家レベルの性能をまだ達成できていないことが示唆された。
関連論文リスト
- Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Can Language Models Use Forecasting Strategies? [14.332379032371612]
実世界の出来事と関連する人間の予測の新たなデータセットを用いた実験について述べる。
モデルはまだ、未来に関する正確な予測に苦戦している。
論文 参考訳(メタデータ) (2024-06-06T19:01:42Z) - A Hypothesis-Driven Framework for the Analysis of Self-Rationalising
Models [0.8702432681310401]
我々はベイジアンネットワークを用いて、タスクの解決方法に関する仮説を実装している。
結果のモデルはGPT-3.5と強い類似性は示さない。
今後の作業において、LCM決定をよりよく近似するフレームワークの可能性だけでなく、これの意味についても論じる。
論文 参考訳(メタデータ) (2024-02-07T12:26:12Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Did the Models Understand Documents? Benchmarking Models for Language
Understanding in Document-Level Relation Extraction [2.4665182280122577]
近年,ドキュメントレベルの関係抽出 (DocRE) が注目されている。
モデルはDocREで一貫したパフォーマンス向上を達成するが、根底にある決定ルールはまだ検討されていない。
本稿では,この質問に答える第一歩として,モデルを包括的に評価する新たな視点を紹介する。
論文 参考訳(メタデータ) (2023-06-20T08:52:05Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Counterfactual Predictions under Runtime Confounding [74.90756694584839]
本研究は, 過去のデータからすべての関連要因を抽出した環境で, 事実予測タスクについて検討する。
本稿では,この環境下での対実予測モデル学習のための2次ロバスト手法を提案する。
論文 参考訳(メタデータ) (2020-06-30T15:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。