論文の概要: Segmentation and Processing of German Court Decisions from Open Legal Data
- arxiv url: http://arxiv.org/abs/2601.01449v1
- Date: Sun, 04 Jan 2026 09:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.358239
- Title: Segmentation and Processing of German Court Decisions from Open Legal Data
- Title(参考訳): 公開法データによるドイツ裁判所判決の分断と処理
- Authors: Harshil Darji, Martin Heckelmann, Christina Kratsch, Gerard de Melo,
- Abstract要約: この研究は、公式のOpen Legal Dataデータセットから派生した251,038ドイツの裁判所決定の、クリーンでセクション化されたデータセットを導入している。
我々は、ドイツの裁判所決定において、3つの重要な部分、すなわち、テナー(決定の操作部分)、タットベスタント(事件の事実)、エンチェイドゥングスグラーンデ(司法的理由づけ)を体系的に分離した。
得られたコーパスは、RechLフォーマットで公開されており、ドイツの法体系についてさらなる研究を行うためのアクセス可能なリソースとなっている。
- 参考スコア(独自算出の注目度): 16.021243861778846
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The availability of structured legal data is important for advancing Natural Language Processing (NLP) techniques for the German legal system. One of the most widely used datasets, Open Legal Data, provides a large-scale collection of German court decisions. While the metadata in this raw dataset is consistently structured, the decision texts themselves are inconsistently formatted and often lack clearly marked sections. Reliable separation of these sections is important not only for rhetorical role classification but also for downstream tasks such as retrieval and citation analysis. In this work, we introduce a cleaned and sectioned dataset of 251,038 German court decisions derived from the official Open Legal Data dataset. We systematically separated three important sections in German court decisions, namely Tenor (operative part of the decision), Tatbestand (facts of the case), and Entscheidungsgründe (judicial reasoning), which are often inconsistently represented in the original dataset. To ensure the reliability of our extraction process, we used Cochran's formula with a 95% confidence level and a 5% margin of error to draw a statistically representative random sample of 384 cases, and manually verified that all three sections were correctly identified. We also extracted the Rechtsmittelbelehrung (appeal notice) as a separate field, since it is a procedural instruction and not part of the decision itself. The resulting corpus is publicly available in the JSONL format, making it an accessible resource for further research on the German legal system.
- Abstract(参考訳): 構造化された法律データの入手は、ドイツの法体系における自然言語処理(NLP)技術の進歩に重要である。
最も広く使われているデータセットの1つであるOpen Legal Dataは、ドイツの裁判所決定の大規模な収集を提供する。
この生データセットのメタデータは一貫して構造化されているが、決定テキスト自体は一貫性のないフォーマットであり、しばしばはっきりとしたセクションが欠落している。
これらのセクションの信頼性の高い分離は、修辞的な役割分類だけでなく、検索や引用分析といった下流のタスクにも重要である。
本研究では,公式なOpen Legal Dataデータセットから得られた251,038のドイツの裁判所決定を,クリーンで分割したデータセットを紹介した。
我々は、ドイツの裁判所決定において、3つの重要な部分、すなわち、テナー(決定の操作部分)、タットベスタン(事件の事実)、エントシェイドゥングスグルーンデ(訴訟推論)を体系的に分離した。
抽出プロセスの信頼性を確保するため,95%の信頼度と5%の誤差率を持つコクランの公式を用いて,統計的に代表される384症例のランダムサンプルを抽出し,これら3項目が正しく同定されたことを手作業で検証した。
我々はまた、手続き的な指示であり、決定そのものの一部ではないため、別分野としてRechtsmittelbelehrung(アパレル通知)を抽出した。
得られたコーパスはJSONLフォーマットで公開されており、ドイツの法体系についてさらなる研究を行うためのアクセス可能なリソースとなっている。
関連論文リスト
- Mining Legal Arguments to Study Judicial Formalism [7.685444048563301]
この研究は、司法推論を自動で検出・分類する手法を開発することで、中欧・東欧における形式的判断(CEE)について論じている。
我々はチェコの2つの最高裁判所から、9,183段落のエキスパートアノテーションによる272の判決のMADONデータセットを作成します。
ModernBERT、Llama 3.1、従来の機能ベースの機械学習を組み合わせた3段階のパイプラインは、決定分類に有望な結果をもたらす。
論文 参考訳(メタデータ) (2025-12-12T08:37:53Z) - AnnoCaseLaw: A Richly-Annotated Dataset For Benchmarking Explainable Legal Judgment Prediction [56.797874973414636]
AnnoCaseLawは、アメリカ合衆国控訴裁判所の無視事件を慎重に注釈付けした471のデータセットである。
我々のデータセットは、より人間らしく説明可能な法的な判断予測モデルの基礎となる。
その結果、LJPは依然として厳しい課題であり、法的な前例の適用は特に困難であることが示されている。
論文 参考訳(メタデータ) (2025-02-28T19:14:48Z) - From Citations to Criticality: Predicting Legal Decision Influence in the Multilingual Swiss Jurisprudence [16.529070321280447]
本稿では,ケース優先性を評価するための新たなリソースであるCriticality Predictionデータセットを紹介する。
本データセットは,(1)二段式LD-Label,(2)より粒度の細かいCitation-Label,(2)二段式LD-Label,(2)二段式LD-Labelを特徴とする。
より小型の微調整モデルと大型の言語モデルを含む複数の多言語モデルをゼロショット設定で評価する。
論文 参考訳(メタデータ) (2024-10-17T11:43:16Z) - AGB-DE: A Corpus for the Automated Legal Assessment of Clauses in German Consumer Contracts [4.427516854041417]
AGB-DE(AGB-DE)は、ドイツの消費者契約の3,764節のコーパスであり、法律の専門家によって注釈付けされ法的に評価されている。
我々は,SVMベースラインの性能を3つの細調整されたオープン言語モデルと比較し,GPT-3.5の性能を比較した。
誤りの分析は、主な課題の1つは、複雑な節の正しい解釈であることを示している。
論文 参考訳(メタデータ) (2024-06-10T21:27:13Z) - Query-driven Relevant Paragraph Extraction from Legal Judgments [1.2562034805037443]
法律専門家は、クエリに直接対処する情報をピンポイントするために、長い法的判断をナビゲートすることに悩まされることが多い。
本稿では,クエリに基づく法的判断から関連する段落を抽出する作業に焦点をあてる。
本稿では,欧州人権裁判所(ECtHR)のケース・ロー・ガイドを用いて,この課題のための特別なデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-31T08:03:39Z) - DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。
我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。
本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-03-27T10:40:14Z) - LLM vs. Lawyers: Identifying a Subset of Summary Judgments in a Large UK
Case Law Dataset [0.0]
本研究は, 英国裁判所判決の大規模コーパスから, 判例, 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、 判例、
我々は、ケンブリッジ法コーパス356,011英国の裁判所決定を用いて、大きな言語モデルは、キーワードに対して重み付けされたF1スコアが0.94対0.78であると判断する。
我々は,3,102件の要約判断事例を同定し抽出し,その分布を時間的範囲の様々な英国裁判所にマップできるようにする。
論文 参考訳(メタデータ) (2024-03-04T10:13:30Z) - MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z) - SILO Language Models: Isolating Legal Risk In a Nonparametric Datastore [159.21914121143885]
推論中にこのリスクパフォーマンストレードオフを管理する新しい言語モデルであるSILOを提案する。
SILOは(1)オープンライセンスコーパス(OLC)上でパラメトリックLMをトレーニングすることで構築されます。
データストアへのアクセスはドメインのパフォーマンスを大幅に改善し、PileでトレーニングされたLMでパフォーマンスギャップの90%を閉じる。
論文 参考訳(メタデータ) (2023-08-08T17:58:15Z) - SAILER: Structure-aware Pre-trained Language Model for Legal Case
Retrieval [75.05173891207214]
判例検索は知的法体系において中心的な役割を果たす。
既存の言語モデルの多くは、異なる構造間の長距離依存関係を理解するのが難しい。
本稿では, LEgal ケース検索のための構造対応プレトランザクショナル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T10:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。