論文の概要: CourtPressGER: A German Court Decision to Press Release Summarization Dataset
- arxiv url: http://arxiv.org/abs/2512.09434v1
- Date: Wed, 10 Dec 2025 09:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.453659
- Title: CourtPressGER: A German Court Decision to Press Release Summarization Dataset
- Title(参考訳): CourtPressGER:ドイツの裁判所が要約データセットを公開
- Authors: Sebastian Nagl, Mohamed Elganayni, Melanie Pospisil, Matthias Grabmair,
- Abstract要約: 以前のNLPの取り組みは、市民指向のコミュニケーションニーズを無視して、技術的な見出しを強調していた。
我々はCourtPressGERを紹介した。これは6.4kのトリプルデータセットで、決定、人力によるプレスリリース、LLMが同等のリリースを生成するための合成プロンプトである。
このベンチマークは、長い司法文書から正確で読みやすい要約を生成するためにLLMを訓練し、評価する。
- 参考スコア(独自算出の注目度): 8.073034374209138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Official court press releases from Germany's highest courts present and explain judicial rulings to the public, as well as to expert audiences. Prior NLP efforts emphasize technical headnotes, ignoring citizen-oriented communication needs. We introduce CourtPressGER, a 6.4k dataset of triples: rulings, human-drafted press releases, and synthetic prompts for LLMs to generate comparable releases. This benchmark trains and evaluates LLMs in generating accurate, readable summaries from long judicial texts. We benchmark small and large LLMs using reference-based metrics, factual-consistency checks, LLM-as-judge, and expert ranking. Large LLMs produce high-quality drafts with minimal hierarchical performance loss; smaller models require hierarchical setups for long judgments. Initial benchmarks show varying model performance, with human-drafted releases ranking highest.
- Abstract(参考訳): ドイツの高等裁判所から公式の報道機関が公開し、裁判所の判決を一般大衆に説明し、専門家の聴衆に説明する。
以前のNLPの取り組みは、市民指向のコミュニケーションのニーズを無視して、技術的な見出しを強調していた。
我々はCourtPressGERを紹介した。これは6.4kのトリプルデータセットで、決定、人力によるプレスリリース、LLMが同等のリリースを生成するための合成プロンプトである。
このベンチマークは、長い司法文書から正確で読みやすい要約を生成するためにLLMを訓練し、評価する。
我々は、基準ベースのメトリクス、事実整合性チェック、LCM-as-judge、エキスパートランキングを用いて、小規模かつ大規模なLCMをベンチマークする。
LLMは階層的な性能損失を最小限に抑えた高品質なドラフトを生成するが、より小さなモデルは長い判断のために階層的なセットアップを必要とする。
最初のベンチマークでは、さまざまなモデルのパフォーマンスが示され、人力によるリリースが最も高い。
関連論文リスト
- Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。
要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文 参考訳(メタデータ) (2026-02-07T19:39:28Z) - Fine Grained Evaluation of LLMs-as-Judges [1.5267938856942276]
大規模言語モデル(LLM)は、人間の代用として用いられる。
我々は、LCMの質を、文書レベルだけでなく、これらの判断が正しい理由のためにどれだけの頻度で正しいかを定量化するためにも、裁判官として評価する。
論文 参考訳(メタデータ) (2026-01-13T19:01:16Z) - Large-Language Memorization During the Classification of United States Supreme Court Cases [2.575607461199738]
大規模言語モデル (LLM) は、質問応答以外の分類タスクに対して様々な方法で応答することが示されている。
我々は、米国最高裁判所(SCOTUS)の決定に基づいて、分類タスクを深く掘り下げる。
最新のLCMファインチューニングと検索に基づくアプローチで実験を行う。
論文 参考訳(メタデータ) (2025-12-15T18:47:48Z) - Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。
モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。
実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - REPA: Russian Error Types Annotation for Evaluating Text Generation and Judgment Capabilities [45.00513157371274]
我々は、ロシア語で大言語モデルを審査員として使用する枠組みを評価した。
人選好に基づく3つの評価システムを用いて, エラータイプ別に6つの生成LDMをランク付けする。
以上の結果から,LLM判定におけるロシア語と英語の差が顕著であった。
論文 参考訳(メタデータ) (2025-03-17T12:15:16Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking [56.275521022148794]
ポストトレーニング法は、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。
LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進捗に変換されますか、そうでなければ、なぜそうでないのでしょうか?
その結果,(1) LLM-judge の嗜好は,安全性,世界知識,指導の具体的な尺度と相関せず,(2) LLM-judge の暗黙バイアスが強く,事実性や安全性よりもスタイルを優先し,(3) POステージではなく,訓練後の微調整段階がアライメントに最も影響していることが判明した。
論文 参考訳(メタデータ) (2024-09-23T17:58:07Z) - Low-Resource Court Judgment Summarization for Common Law Systems [32.13166048504629]
CLSumは,多審理法裁判所判決文書を要約する最初のデータセットである。
これは、データ拡張、要約生成、評価において、大規模言語モデル(LLM)を採用する最初の裁判所判決要約作業である。
論文 参考訳(メタデータ) (2024-03-07T12:47:42Z) - JudgeLM: Fine-tuned Large Language Models are Scalable Judges [48.053949045598344]
大規模言語モデル(LLM)をオープンなシナリオで評価することは、既存のベンチマークやメトリクスがそれらを包括的に測定できないため、難しい。
本稿では,拡張性のある審査員 (JudgeLM) としてLLMを微調整し,LLMを効率よく,かつ効率的に評価する手法を提案する。
我々は7B,13Bから33Bパラメータの異なるスケールでJiceLMを訓練し、その能力と振る舞いを体系的に分析する。
論文 参考訳(メタデータ) (2023-10-26T17:48:58Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。