論文の概要: CaseSumm: A Large-Scale Dataset for Long-Context Summarization from U.S. Supreme Court Opinions
- arxiv url: http://arxiv.org/abs/2501.00097v1
- Date: Mon, 30 Dec 2024 19:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:52.840512
- Title: CaseSumm: A Large-Scale Dataset for Long-Context Summarization from U.S. Supreme Court Opinions
- Title(参考訳): CaseSumm: 合衆国最高裁判所の意見による長期的要約のための大規模データセット
- Authors: Mourad Heddaya, Kyle MacMillan, Anup Malani, Hongyuan Mei, Chenhao Tan,
- Abstract要約: 本稿では,法律領域における長文要約のための新しいデータセットであるCaseSummを紹介する。
我々は、米国最高裁判所(SCOTUS)の意見25.6万件と、その公式要約「syllabuses」を収集する。
我々のデータセットは、オープンな訴訟要約データセットとしては最大であり、1815年にさかのぼるSCOTUS決定の要約を含む最初のものである。
- 参考スコア(独自算出の注目度): 25.82451110740322
- License:
- Abstract: This paper introduces CaseSumm, a novel dataset for long-context summarization in the legal domain that addresses the need for longer and more complex datasets for summarization evaluation. We collect 25.6K U.S. Supreme Court (SCOTUS) opinions and their official summaries, known as "syllabuses." Our dataset is the largest open legal case summarization dataset, and is the first to include summaries of SCOTUS decisions dating back to 1815. We also present a comprehensive evaluation of LLM-generated summaries using both automatic metrics and expert human evaluation, revealing discrepancies between these assessment methods. Our evaluation shows Mistral 7b, a smaller open-source model, outperforms larger models on most automatic metrics and successfully generates syllabus-like summaries. In contrast, human expert annotators indicate that Mistral summaries contain hallucinations. The annotators consistently rank GPT-4 summaries as clearer and exhibiting greater sensitivity and specificity. Further, we find that LLM-based evaluations are not more correlated with human evaluations than traditional automatic metrics. Furthermore, our analysis identifies specific hallucinations in generated summaries, including precedent citation errors and misrepresentations of case facts. These findings demonstrate the limitations of current automatic evaluation methods for legal summarization and highlight the critical role of human evaluation in assessing summary quality, particularly in complex, high-stakes domains. CaseSumm is available at https://huggingface.co/datasets/ChicagoHAI/CaseSumm
- Abstract(参考訳): 本稿では,要約評価のためのより長い複雑なデータセットの必要性に対処する,法律領域における長文要約のための新しいデータセットであるCaseSummを紹介する。
アメリカ合衆国最高裁判所(SCOTUS)の意見と公式の要約を25.6万件収集する。
我々のデータセットは、オープンな訴訟要約データセットとしては最大であり、1815年にさかのぼるSCOTUS決定の要約を含む最初のものである。
また,これらの評価方法の相違点を明らかにするために,自動測定値と専門家による評価値の両方を用いたLCM生成サマリーの総合評価を行った。
我々の評価では、より小さなオープンソースモデルであるMistral 7bが、ほとんどの自動メトリクスにおいてより大きなモデルより優れており、Syllabusのような要約を生成することに成功した。
対照的に、人間の専門家の注釈は、ミストラルの要約には幻覚が含まれていることを示している。
アノテーションはGPT-4サマリーをより明確で、感度と特異性が高いと常にランク付けしている。
さらに,LLMに基づく評価は,従来の自動測定値よりも人間による評価と相関しないことがわかった。
さらに,本分析では,前例の引用誤りや事例事実の誤表現など,生成された要約中の特定の幻覚を同定する。
これらの知見は,現在,法的な要約のための自動評価手法の限界を示し,特に複雑で高い領域において,要約品質の評価において人的評価が重要な役割を担っていることを示す。
CaseSummはhttps://huggingface.co/datasets/ChicagoHAI/CaseSummで利用可能である。
関連論文リスト
- JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Breaking the Manual Annotation Bottleneck: Creating a Comprehensive Legal Case Criticality Dataset through Semi-Automated Labeling [16.529070321280447]
本稿では,スイス最高裁判所の判決が将来の法制化に与える影響を評価するための新たな資源である臨界度予測データセットを紹介する。
リソース集約的な手動アノテーションに依存する既存のアプローチとは異なり、私たちはラベルを半自動で導き、はるかに大きなデータセットを生み出します。
我々は、微調整された変種や大規模言語モデルを含む複数の多言語モデルを評価し、微調整されたモデルがゼロショットベースラインを一貫して上回っていることを発見した。
論文 参考訳(メタデータ) (2024-10-17T11:43:16Z) - Applicability of Large Language Models and Generative Models for Legal Case Judgement Summarization [5.0645491201288495]
近年,抽象的な要約モデルやLarge Language Model (LLM) などの生成モデルが広く普及している。
本稿では,判例判断要約におけるそのようなモデルの適用性について検討する。
論文 参考訳(メタデータ) (2024-07-06T04:49:40Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization [29.49641083851667]
様々な大きさのLPMによって生成される話題中心の対話要約に関する新しい評価ベンチマークを提案する。
我々はこれらの要約の事実整合性に関する二項文レベルの人文アノテーションと、事実整合性のある文章の詳細な説明を提供する。
論文 参考訳(メタデータ) (2024-02-20T18:58:49Z) - Incremental Extractive Opinion Summarization Using Cover Trees [81.59625423421355]
オンラインマーケットプレースでは、ユーザレビューは時間とともに蓄積され、意見要約を定期的に更新する必要がある。
本研究では,漸進的な環境下での抽出的意見要約の課題について検討する。
本稿では,CentroidRankの要約をインクリメンタルな設定で正確に計算するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-16T02:00:17Z) - AugSumm: towards generalizable speech summarization using synthetic
labels from large language model [61.73741195292997]
抽象音声要約(SSUM)は、音声から人間に似た要約を生成することを目的としている。
従来のSSUMモデルは、主に、人間による注釈付き決定論的要約(英語版)を用いて訓練され、評価されている。
AugSummは,人間のアノテータが拡張要約を生成するためのプロキシとして,大規模言語モデル(LLM)を利用する手法である。
論文 参考訳(メタデータ) (2024-01-10T18:39:46Z) - Modeling Legal Reasoning: LM Annotation at the Edge of Human Agreement [3.537369004801589]
我々は法学哲学に基づく法学推論の分類について研究する。
我々は、ドメインの専門家チームによって注釈付けされた、アメリカ合衆国最高裁判所の歴史的意見の新しいデータセットを使用します。
生成モデルは、人間のアノテーションに提示される命令と同等の命令が与えられた場合、性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-10-27T19:27:59Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - How Ready are Pre-trained Abstractive Models and LLMs for Legal Case
Judgement Summarization? [4.721618284417204]
近年、抽象的な要約モデルが人気を集めている。
法的なドメイン固有の事前訓練された抽象要約モデルが利用可能になった。
汎用ドメイン事前訓練大型言語モデル(LLM)は高品質なテキストを生成することが知られている。
論文 参考訳(メタデータ) (2023-06-02T03:16:19Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。