論文の概要: Question-Answering Approach to Evaluating Legal Summaries
- arxiv url: http://arxiv.org/abs/2309.15016v2
- Date: Mon, 18 Dec 2023 21:43:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 23:01:36.333579
- Title: Question-Answering Approach to Evaluating Legal Summaries
- Title(参考訳): 法的要約の評価に対する質問応答アプローチ
- Authors: Huihui Xu and Kevin Ashley
- Abstract要約: GPT-4は、メインポイントと参照サマリーの情報をカバーする一連の質問応答ペアを生成するために使用される。
GPT-4は、参照要約から生成された質問の要約に基づいて回答を生成する。
GPT-4は、参照要約と生成された要約から回答を格付けする。
- 参考スコア(独自算出の注目度): 0.43512163406551996
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditional evaluation metrics like ROUGE compare lexical overlap between the
reference and generated summaries without taking argumentative structure into
account, which is important for legal summaries. In this paper, we propose a
novel legal summarization evaluation framework that utilizes GPT-4 to generate
a set of question-answer pairs that cover main points and information in the
reference summary. GPT-4 is then used to generate answers based on the
generated summary for the questions from the reference summary. Finally, GPT-4
grades the answers from the reference summary and the generated summary. We
examined the correlation between GPT-4 grading with human grading. The results
suggest that this question-answering approach with GPT-4 can be a useful tool
for gauging the quality of the summary.
- Abstract(参考訳): rougeのような従来の評価指標は、議論的な構造を考慮せずに、参照と生成された要約の語彙重なりを比較する。
本稿では,gpt-4を用いて,主点と参照要約情報をカバーする一連の質問・回答ペアを生成する新しい法的要約評価フレームワークを提案する。
GPT-4は、参照要約から生成された質問の要約に基づいて回答を生成する。
最後に、GPT-4は、参照要約と生成された要約から回答を格付けする。
GPT-4グレーティングとヒトグレーディングの相関について検討した。
以上の結果から, GPT-4を用いた質問応答手法は, 要約の質向上に有効であることが示唆された。
関連論文リスト
- AugSumm: towards generalizable speech summarization using synthetic
labels from large language model [61.73741195292997]
抽象音声要約(SSUM)は、音声から人間に似た要約を生成することを目的としている。
従来のSSUMモデルは、主に、人間による注釈付き決定論的要約(英語版)を用いて訓練され、評価されている。
AugSummは,人間のアノテータが拡張要約を生成するためのプロキシとして,大規模言語モデル(LLM)を利用する手法である。
論文 参考訳(メタデータ) (2024-01-10T18:39:46Z) - Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks [53.936643052339]
GPT-4のテキストのみおよびマルチモーダル版による推論能力の評価を行った。
実験結果から,GPT-4のどちらのバージョンも人間に近いレベルで頑健な抽象化能力を開発していないという結論が得られた。
論文 参考訳(メタデータ) (2023-11-14T04:33:49Z) - GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection [51.43589678946244]
本稿では、一般的な視覚異常検出(AD)タスクにおけるVQA指向のGPT-4Vの可能性について検討する。
MVTec ADとVisAデータセットで定性的かつ定量的な評価を行ったのは、これが初めてである。
論文 参考訳(メタデータ) (2023-11-05T10:01:18Z) - Reformulating Domain Adaptation of Large Language Models as
Adapt-Retrieve-Revise [34.4546877502907]
GPT-4は、中国法のような特定の領域における幻覚を伴うコンテンツを生成し、これらの領域におけるそれらの適用を妨げる。
本稿では,生成をtextbfadapt-retrieve-revise プロセスとして再構成することで,GPT-4 の簡易かつ効果的なドメイン適応フレームワークを提案する。
中国の4つの法的タスクのゼロショット設定では、GPT-4による直接生成と比較して精度が33.3%向上する。
論文 参考訳(メタデータ) (2023-10-05T05:55:06Z) - From Sparse to Dense: GPT-4 Summarization with Chain of Density
Prompting [57.25154420382581]
優れた要約は、過度に密集し、従うのが難しいことなく、詳細でエンティティ中心であるべきです。
我々はより密度の高い GPT-4 のサマリーを、密度の連鎖(Chain of Density)のプロンプト(英語版)と呼ぶものと比較する。
我々は,100件のCNN DailyMail記事に対する人間の嗜好調査を行い,バニラプロンプトが生成したものよりもGPT-4の要約の方が好まれていることを発見した。
論文 参考訳(メタデータ) (2023-09-08T11:31:08Z) - Argumentative Segmentation Enhancement for Legal Summarization [0.913755431537592]
GPT-3.5は、引数セグメントに基づいて要約を生成するために使用される。
自動評価の指標から,提案手法は高品質な議論的要約を生成する。
論文 参考訳(メタデータ) (2023-07-11T07:29:18Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。