論文の概要: JuDGE: Benchmarking Judgment Document Generation for Chinese Legal System
- arxiv url: http://arxiv.org/abs/2503.14258v1
- Date: Tue, 18 Mar 2025 13:48:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:18:09.373767
- Title: JuDGE: Benchmarking Judgment Document Generation for Chinese Legal System
- Title(参考訳): JuDGE:中国法制度における判決書作成のベンチマーク
- Authors: Weihang Su, Baoqing Yue, Qingyao Ai, Yiran Hu, Jiaqi Li, Changyue Wang, Kaiyuan Zhang, Yueyue Wu, Yiqun Liu,
- Abstract要約: JuDGE(Judgment Document Generation Evaluation)は、中国の法体系における判定文書生成の性能を評価するための新しいベンチマークである。
本研究では,実訴訟の事実記述からなる包括的データセットを構築し,対応する全判決文書と組み合わせた。
法律専門家と共同で,生成した判定文書の品質を評価するための総合的な自動評価フレームワークを構築した。
- 参考スコア(独自算出の注目度): 12.256518096712334
- License:
- Abstract: This paper introduces JuDGE (Judgment Document Generation Evaluation), a novel benchmark for evaluating the performance of judgment document generation in the Chinese legal system. We define the task as generating a complete legal judgment document from the given factual description of the case. To facilitate this benchmark, we construct a comprehensive dataset consisting of factual descriptions from real legal cases, paired with their corresponding full judgment documents, which serve as the ground truth for evaluating the quality of generated documents. This dataset is further augmented by two external legal corpora that provide additional legal knowledge for the task: one comprising statutes and regulations, and the other consisting of a large collection of past judgment documents. In collaboration with legal professionals, we establish a comprehensive automated evaluation framework to assess the quality of generated judgment documents across various dimensions. We evaluate various baseline approaches, including few-shot in-context learning, fine-tuning, and a multi-source retrieval-augmented generation (RAG) approach, using both general and legal-domain LLMs. The experimental results demonstrate that, while RAG approaches can effectively improve performance in this task, there is still substantial room for further improvement. All the codes and datasets are available at: https://github.com/oneal2000/JuDGE.
- Abstract(参考訳): 本稿では,中国法体系における判定文書生成性能を評価するための新しいベンチマークであるJuDGE(Judgment Document Generation Evaluation)を紹介する。
我々は,この課題を,事件の所定の事実記述から完全な法的判断書を生成するものとして定義する。
このベンチマークを容易にするため、本研究では、実際の訴訟の事実記述からなる包括的なデータセットを構築し、対応する全判定文書と組み合わせて、生成された文書の品質を評価するための基礎的真理として機能する。
このデータセットは、2つの外部法定コーパスによってさらに強化され、そのタスクに対して追加の法的知識を提供する。
法律専門家と共同で、様々な次元で生成された判定文書の品質を評価するための総合的な自動評価フレームワークを構築した。
汎用LLMと法定LLMの両方を用いて,テキスト内学習,微調整,マルチソース検索拡張生成(RAG)アプローチなど,さまざまなベースラインアプローチを評価した。
実験結果から,RAGアプローチはタスクのパフォーマンスを効果的に向上させることができるが,さらなる改善の余地がまだ残っていることが示された。
すべてのコードとデータセットは、https://github.com/oneal2000/JuDGE.comで入手できる。
関連論文リスト
- Named entity recognition for Serbian legal documents: Design, methodology and dataset development [0.0]
セルビア語で書かれた法的文書の場合には,名前付きエンティティ認識(NER)の一解法を提案する。
これは、テキストコンテンツから特定のデータポイントを識別し分類する特定のタスクに慎重に適応していた変換器(BERT)からの事前訓練された双方向エンコーダ表現を活用している。
論文 参考訳(メタデータ) (2025-02-14T22:23:39Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Query-driven Relevant Paragraph Extraction from Legal Judgments [1.2562034805037443]
法律専門家は、クエリに直接対処する情報をピンポイントするために、長い法的判断をナビゲートすることに悩まされることが多い。
本稿では,クエリに基づく法的判断から関連する段落を抽出する作業に焦点をあてる。
本稿では,欧州人権裁判所(ECtHR)のケース・ロー・ガイドを用いて,この課題のための特別なデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-31T08:03:39Z) - Exploring Large Language Models and Hierarchical Frameworks for
Classification of Large Unstructured Legal Documents [0.6349503549199403]
我々は,大規模法律文書の分類と,深層学習に基づく階層的枠組みによる構造情報の欠如について検討する。
具体的には、文書を分割して、カスタムの微調整された大規模言語モデルの最後の4層から埋め込みを抽出する。
提案手法は,従来の最先端手法に比べて平均2ポイント程度の性能向上を実現している。
論文 参考訳(メタデータ) (2024-03-11T16:24:08Z) - MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z) - A Hierarchical Neural Framework for Classification and its Explanation in Large Unstructured Legal Documents [0.5812284760539713]
我々はこの問題を「注釈付き法律文書」と定義する。
我々はMEScと呼ぶディープラーニングに基づく分類フレームワークを提案する。
また、ORSEと呼ばれる説明抽出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:18:28Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Incorporating Domain Knowledge for Extractive Summarization of Legal
Case Documents [7.6340456946456605]
法ケース文書の要約のための教師なし要約アルゴリズムDELSummを提案する。
提案アルゴリズムは,数千対の文書-要約ペアで訓練された教師付き要約モデルより優れている。
論文 参考訳(メタデータ) (2021-06-30T08:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。