論文の概要: An Evaluation Framework for Legal Document Summarization
- arxiv url: http://arxiv.org/abs/2205.08478v1
- Date: Tue, 17 May 2022 16:42:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 15:09:58.103031
- Title: An Evaluation Framework for Legal Document Summarization
- Title(参考訳): 法的文書要約のための評価フレームワーク
- Authors: Ankan Mullick, Abhilash Nandy, Manav Nitin Kapadnis, Sohan Patnaik, R
Raghav, Roshni Kar
- Abstract要約: 法実務者は、土地紛争、汚職など、様々な分野の実務について、多くの長い訴訟手続を経なければならない。
これらの文書を要約し、事件のカテゴリーに合致する意図のある句を含むことを保証することが重要である。
本稿では, BLEU, ROUGE-Lなどの他の自動指標と比較して, 人間の評価との整合性を示す自動意図ベース要約尺度を提案する。
- 参考スコア(独自算出の注目度): 1.9709122688953327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A law practitioner has to go through numerous lengthy legal case proceedings
for their practices of various categories, such as land dispute, corruption,
etc. Hence, it is important to summarize these documents, and ensure that
summaries contain phrases with intent matching the category of the case. To the
best of our knowledge, there is no evaluation metric that evaluates a summary
based on its intent. We propose an automated intent-based summarization metric,
which shows a better agreement with human evaluation as compared to other
automated metrics like BLEU, ROUGE-L etc. in terms of human satisfaction. We
also curate a dataset by annotating intent phrases in legal documents, and show
a proof of concept as to how this system can be automated. Additionally, all
the code and data to generate reproducible results is available on Github.
- Abstract(参考訳): 法律実務者は、土地紛争、腐敗など、様々なカテゴリーの実務のために、数多くの長い訴訟手続を経なければならない。
したがって、これらの文書を要約し、事例のカテゴリに合致する意図のある句を要約に含むことが重要である。
私たちの知る限りでは、その意図に基づいて要約を評価する評価指標はありません。
本稿では,人的満足度の観点から,BLEU,ROUGE-Lなどの他の自動指標と比較して,人的評価との整合性が高い自動意図に基づく要約尺度を提案する。
また、法的文書に意図文を注釈付けしてデータセットをキュレートし、このシステムをいかに自動化できるかという概念実証を示す。
さらに、再現可能な結果を生成するすべてのコードとデータは、githubで入手できる。
関連論文リスト
- JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Evaluating Code Summarization Techniques: A New Metric and an Empirical
Characterization [16.127739014966487]
生成した要約の質を計測する際の様々な種類の指標の相補性について検討する。
我々は,その側面を捉えるために,コントラスト学習に基づく新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-24T13:12:39Z) - OpinSummEval: Revisiting Automated Evaluation for Opinion Summarization [52.720711541731205]
人間の判断と14の意見要約モデルからの出力からなるデータセットであるOpinSummEvalを提案する。
以上の結果から,ニューラルネットワークに基づく測定値が神経以外の測定値を上回っていることが示唆された。
論文 参考訳(メタデータ) (2023-10-27T13:09:54Z) - MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z) - LongDocFACTScore: Evaluating the Factuality of Long Document Abstractive Summarisation [28.438103177230477]
長文要約の事実整合性を評価するための自動測度の有効性を評価する。
本稿では,文書要約データセットの評価に適した新しい評価フレームワークであるLongDocFACTScoreを提案する。
論文 参考訳(メタデータ) (2023-09-21T19:54:54Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Court Judgement Labeling on HKLII [17.937279252256594]
HKLIIは香港で10年間、法的文書の保管所として機能してきた。
当社のチームは、NLPテクニックをWebサイトに取り入れて、よりインテリジェントにすることを目指しています。
論文 参考訳(メタデータ) (2022-08-03T06:32:16Z) - Fine-grained Intent Classification in the Legal Domain [2.088409822555567]
我々は、殺人、土地紛争、強盗、破産のいずれかの事例分類に属する93の法的文書のデータセットを紹介する。
このようなフレーズごとに微妙な意図を注釈し、読者のケースをより深く理解できるようにします。
目的語句の自動抽出における変換器モデルの性能解析を行う。
論文 参考訳(メタデータ) (2022-05-06T23:57:17Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Automating Document Classification with Distant Supervision to Increase
the Efficiency of Systematic Reviews [18.33687903724145]
体系的なレビューは高価で、時間的需要があり、労働集約的です。
文書のレビュー作業を大幅に削減するための自動文書分類アプローチを提案します。
論文 参考訳(メタデータ) (2020-12-09T22:45:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。