論文の概要: CourtPressGER: A German Court Decision to Press Release Summarization Dataset
- arxiv url: http://arxiv.org/abs/2512.09434v1
- Date: Wed, 10 Dec 2025 09:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.453659
- Title: CourtPressGER: A German Court Decision to Press Release Summarization Dataset
- Title(参考訳): CourtPressGER:ドイツの裁判所が要約データセットを公開
- Authors: Sebastian Nagl, Mohamed Elganayni, Melanie Pospisil, Matthias Grabmair,
- Abstract要約: 以前のNLPの取り組みは、市民指向のコミュニケーションニーズを無視して、技術的な見出しを強調していた。
我々はCourtPressGERを紹介した。これは6.4kのトリプルデータセットで、決定、人力によるプレスリリース、LLMが同等のリリースを生成するための合成プロンプトである。
このベンチマークは、長い司法文書から正確で読みやすい要約を生成するためにLLMを訓練し、評価する。
- 参考スコア(独自算出の注目度): 8.073034374209138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Official court press releases from Germany's highest courts present and explain judicial rulings to the public, as well as to expert audiences. Prior NLP efforts emphasize technical headnotes, ignoring citizen-oriented communication needs. We introduce CourtPressGER, a 6.4k dataset of triples: rulings, human-drafted press releases, and synthetic prompts for LLMs to generate comparable releases. This benchmark trains and evaluates LLMs in generating accurate, readable summaries from long judicial texts. We benchmark small and large LLMs using reference-based metrics, factual-consistency checks, LLM-as-judge, and expert ranking. Large LLMs produce high-quality drafts with minimal hierarchical performance loss; smaller models require hierarchical setups for long judgments. Initial benchmarks show varying model performance, with human-drafted releases ranking highest.
- Abstract(参考訳): ドイツの高等裁判所から公式の報道機関が公開し、裁判所の判決を一般大衆に説明し、専門家の聴衆に説明する。
以前のNLPの取り組みは、市民指向のコミュニケーションのニーズを無視して、技術的な見出しを強調していた。
我々はCourtPressGERを紹介した。これは6.4kのトリプルデータセットで、決定、人力によるプレスリリース、LLMが同等のリリースを生成するための合成プロンプトである。
このベンチマークは、長い司法文書から正確で読みやすい要約を生成するためにLLMを訓練し、評価する。
我々は、基準ベースのメトリクス、事実整合性チェック、LCM-as-judge、エキスパートランキングを用いて、小規模かつ大規模なLCMをベンチマークする。
LLMは階層的な性能損失を最小限に抑えた高品質なドラフトを生成するが、より小さなモデルは長い判断のために階層的なセットアップを必要とする。
最初のベンチマークでは、さまざまなモデルのパフォーマンスが示され、人力によるリリースが最も高い。
関連論文リスト
- Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。
モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。
実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - REPA: Russian Error Types Annotation for Evaluating Text Generation and Judgment Capabilities [45.00513157371274]
我々は、ロシア語で大言語モデルを審査員として使用する枠組みを評価した。
人選好に基づく3つの評価システムを用いて, エラータイプ別に6つの生成LDMをランク付けする。
以上の結果から,LLM判定におけるロシア語と英語の差が顕著であった。
論文 参考訳(メタデータ) (2025-03-17T12:15:16Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking [56.275521022148794]
ポストトレーニング法は、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。
LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進捗に変換されますか、そうでなければ、なぜそうでないのでしょうか?
その結果,(1) LLM-judge の嗜好は,安全性,世界知識,指導の具体的な尺度と相関せず,(2) LLM-judge の暗黙バイアスが強く,事実性や安全性よりもスタイルを優先し,(3) POステージではなく,訓練後の微調整段階がアライメントに最も影響していることが判明した。
論文 参考訳(メタデータ) (2024-09-23T17:58:07Z) - Low-Resource Court Judgment Summarization for Common Law Systems [32.13166048504629]
CLSumは,多審理法裁判所判決文書を要約する最初のデータセットである。
これは、データ拡張、要約生成、評価において、大規模言語モデル(LLM)を採用する最初の裁判所判決要約作業である。
論文 参考訳(メタデータ) (2024-03-07T12:47:42Z) - JudgeLM: Fine-tuned Large Language Models are Scalable Judges [48.053949045598344]
大規模言語モデル(LLM)をオープンなシナリオで評価することは、既存のベンチマークやメトリクスがそれらを包括的に測定できないため、難しい。
本稿では,拡張性のある審査員 (JudgeLM) としてLLMを微調整し,LLMを効率よく,かつ効率的に評価する手法を提案する。
我々は7B,13Bから33Bパラメータの異なるスケールでJiceLMを訓練し、その能力と振る舞いを体系的に分析する。
論文 参考訳(メタデータ) (2023-10-26T17:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。