論文の概要: MultiJustice: A Chinese Dataset for Multi-Party, Multi-Charge Legal Prediction
- arxiv url: http://arxiv.org/abs/2507.06909v1
- Date: Wed, 09 Jul 2025 14:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.630279
- Title: MultiJustice: A Chinese Dataset for Multi-Party, Multi-Charge Legal Prediction
- Title(参考訳): MultiJustice:中国におけるマルチパーティ・マルチチャージ法定予測用データセット
- Authors: Xiao Wang, Jiahuan Pei, Diancheng Shui, Zhiguang Han, Xin Sun, Dawei Zhu, Xiaoyu Shen,
- Abstract要約: マルチパーソン・マルチチャージ予測(MPMCP)という新しいデータセットを導入する。
我々は,4つの実効的法的判断シナリオにおいて,いくつかの法的な大規模言語モデル (LLM) の性能を評価することにより,その解を求める。
我々は広範囲な実験を行い、複数の被告と複数の突撃(S4)を含むシナリオが最大の課題となることを発見した。
- 参考スコア(独自算出の注目度): 13.929003270505333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Legal judgment prediction offers a compelling method to aid legal practitioners and researchers. However, the research question remains relatively under-explored: Should multiple defendants and charges be treated separately in LJP? To address this, we introduce a new dataset namely multi-person multi-charge prediction (MPMCP), and seek the answer by evaluating the performance of several prevailing legal large language models (LLMs) on four practical legal judgment scenarios: (S1) single defendant with a single charge, (S2) single defendant with multiple charges, (S3) multiple defendants with a single charge, and (S4) multiple defendants with multiple charges. We evaluate the dataset across two LJP tasks, i.e., charge prediction and penalty term prediction. We have conducted extensive experiments and found that the scenario involving multiple defendants and multiple charges (S4) poses the greatest challenges, followed by S2, S3, and S1. The impact varies significantly depending on the model. For example, in S4 compared to S1, InternLM2 achieves approximately 4.5% lower F1-score and 2.8% higher LogD, while Lawformer demonstrates around 19.7% lower F1-score and 19.0% higher LogD. Our dataset and code are available at https://github.com/lololo-xiao/MultiJustice-MPMCP.
- Abstract(参考訳): 法的判断予測は、法律実務者や研究者を支援するための説得力のある方法を提供する。
しかし、調査の問題は比較的未解決のままであり、複数の被告と告訴はLJPで別々に扱われるべきなのか?
そこで本研究では,マルチパーソン・マルチチャージ予測 (MPMCP) という新たなデータセットを導入し, (S1) 単一被告, (S2) 単一被告, (S3) 複数被告, (S4) 複数請求, (S4) 複数被告の4つの実用的法的判断シナリオにおいて, LLMの性能を評価することにより, 解答を求める。
我々は,2つのLJPタスク,すなわち電荷予測とペナルティ項予測にまたがるデータセットを評価する。
我々は広範な実験を行い、複数の被告と複数の突撃(S4)を含むシナリオが最大の課題となり、S2、S3、S1が続くことがわかった。
影響はモデルによって大きく異なる。
例えばS4では、InternLM2はF1スコアが約4.5%、LogDが2.8%、LawformerはF1スコアが19.7%、LogDが19.0%である。
データセットとコードはhttps://github.com/lolo-xiao/MultiJustice-MPMCPで公開しています。
関連論文リスト
- Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - A Llama walks into the 'Bar': Efficient Supervised Fine-Tuning for Legal Reasoning in the Multi-state Bar Exam [38.71998082580061]
法的な推論タスクは、ドメイン固有の知識と推論プロセスの複雑さのために、大きな言語モデル(LLM)に固有の課題を示す。
本稿では,Llama 2 7B と Llama 3 8B の小さい言語モデルが,MBE (Multi-state Bar Examination) の限られたデータセットを用いて,いかに効果的に微調整できるかを検討する。
論文 参考訳(メタデータ) (2025-04-07T11:31:22Z) - AnnoCaseLaw: A Richly-Annotated Dataset For Benchmarking Explainable Legal Judgment Prediction [56.797874973414636]
AnnoCaseLawは、アメリカ合衆国控訴裁判所の無視事件を慎重に注釈付けした471のデータセットである。
我々のデータセットは、より人間らしく説明可能な法的な判断予測モデルの基礎となる。
その結果、LJPは依然として厳しい課題であり、法的な前例の適用は特に困難であることが示されている。
論文 参考訳(メタデータ) (2025-02-28T19:14:48Z) - Beyond Guilt: Legal Judgment Prediction with Trichotomous Reasoning [12.589047235741194]
Innocent Verdicts を用いた法的な判断予測のための最初のベンチマークデータセット LJPIV を紹介する。
LLMに基づく拡張と手作業による検証により,3つの広く使用されている法的データセットを拡張した。
現状の法的LLMと, トリコトミー推論をゼロショット・プロンプトと微調整に組み込んだ新たな戦略による実験により, 1) 現行の法的LLMには改善の余地があり, 最高のモデルでさえも, LJPIVのF1スコアが0.3未満であることがわかった。
論文 参考訳(メタデータ) (2024-12-19T07:14:13Z) - Large Language Monkeys: Scaling Inference Compute with Repeated Sampling [81.34900892130929]
モデルから候補解を繰り返しサンプリングする簡単な手法を用いて、推論計算をスケーリングのための別の軸として検討する。
複数のタスクやモデルにまたがって、カバレッジは4桁以上のサンプル数でスケールする。
コードや形式的証明のようなドメインでは、回答が自動的に検証されるので、カバレッジの増加は直接的にパフォーマンスの向上につながります。
論文 参考訳(メタデータ) (2024-07-31T17:57:25Z) - eagerlearners at SemEval2024 Task 5: The Legal Argument Reasoning Task in Civil Procedure [0.04096453902709291]
本研究では,3大言語モデルを用いたデータ分類におけるゼロショット法の性能について検討した。
私たちの主要なデータセットは、米国民事訴訟のドメインから来ています。
論文 参考訳(メタデータ) (2024-06-24T09:57:44Z) - Multi-Defendant Legal Judgment Prediction via Hierarchical Reasoning [49.23103067844278]
マルチディペンダント・ケースの各被告に対する判断結果を自動予測することを目的としたマルチディペンダント・LJPの課題を提案する。
マルチディペンダント LJP の課題は,(1) 各被告の識別不能な判断結果, (2) 訓練と評価のための実世界のデータセットの欠如である。
論文 参考訳(メタデータ) (2023-12-10T04:46:30Z) - MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。