論文の概要: Question-Answering Approach to Evaluate Legal Summaries
- arxiv url: http://arxiv.org/abs/2309.15016v1
- Date: Tue, 26 Sep 2023 15:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 13:01:12.181734
- Title: Question-Answering Approach to Evaluate Legal Summaries
- Title(参考訳): 法的要約を評価するための質問応答アプローチ
- Authors: Huihui Xu and Kevin Ashley
- Abstract要約: GPT-4は、メインポイントと参照サマリーの情報をカバーする一連の質問応答ペアを生成するために使用される。
GPT-4は、参照要約から生成された質問の要約に基づいて回答を生成する。
GPT-4は、参照要約と生成された要約から回答を格付けする。
- 参考スコア(独自算出の注目度): 0.43512163406551996
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditional evaluation metrics like ROUGE compare lexical overlap between the
reference and generated summaries without taking argumentative structure into
account, which is important for legal summaries. In this paper, we propose a
novel legal summarization evaluation framework that utilizes GPT-4 to generate
a set of question-answer pairs that cover main points and information in the
reference summary. GPT-4 is then used to generate answers based on the
generated summary for the questions from the reference summary. Finally, GPT-4
grades the answers from the reference summary and the generated summary. We
examined the correlation between GPT-4 grading with human grading. The results
suggest that this question-answering approach with GPT-4 can be a useful tool
for gauging the quality of the summary.
- Abstract(参考訳): rougeのような従来の評価指標は、議論的な構造を考慮せずに、参照と生成された要約の語彙重なりを比較する。
本稿では,gpt-4を用いて,主点と参照要約情報をカバーする一連の質問・回答ペアを生成する新しい法的要約評価フレームワークを提案する。
GPT-4は、参照要約から生成された質問の要約に基づいて回答を生成する。
最後に、GPT-4は、参照要約と生成された要約から回答を格付けする。
GPT-4グレーティングとヒトグレーディングの相関について検討した。
以上の結果から, GPT-4を用いた質問応答手法は, 要約の質向上に有効であることが示唆された。
関連論文リスト
- Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams [48.99818550820575]
我々は、最先端のマルチモーダルAIモデル、特にGPT-4oを利用して、大学レベルの数学試験に対する手書きの応答を自動的に評価する。
確率論試験における質問に対する実際の学生の反応を用いて, GPT-4oのスコアと, 様々なプロンプト技術を用いて, 人間の学級のスコアとの整合性を評価する。
論文 参考訳(メタデータ) (2024-11-07T22:51:47Z) - GroUSE: A Benchmark to Evaluate Evaluators in Grounded Question Answering [0.0]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) をプライベートおよび最新の知識ベースと共に使用する共通のパラダイムとして登場した。
本稿では,RAG システムによって生成される接地回答を評価する際に LLM-as-a-Judge を用いる際の課題に対処する。
論文 参考訳(メタデータ) (2024-09-10T15:39:32Z) - Leveraging Lecture Content for Improved Feedback: Explorations with GPT-4 and Retrieval Augmented Generation [0.0]
本稿では,大規模言語モデルによるプログラミングタスクのフィードバックを改善するために,検索拡張生成(Retrieval Augmented Generation)を提案する。
対応する講義記録は転写され、外部知識源としてLarge Language Model GPT-4で利用可能となった。
この目的は、幻覚を予防し、講義の技術的用語やフレーズの使用を強制することである。
論文 参考訳(メタデータ) (2024-05-05T18:32:06Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks [53.936643052339]
GPT-4のテキストのみおよびマルチモーダル版による推論能力の評価を行った。
実験結果から,GPT-4のどちらのバージョンも人間に近いレベルで頑健な抽象化能力を開発していないという結論が得られた。
論文 参考訳(メタデータ) (2023-11-14T04:33:49Z) - From Sparse to Dense: GPT-4 Summarization with Chain of Density
Prompting [57.25154420382581]
優れた要約は、過度に密集し、従うのが難しいことなく、詳細でエンティティ中心であるべきです。
我々はより密度の高い GPT-4 のサマリーを、密度の連鎖(Chain of Density)のプロンプト(英語版)と呼ぶものと比較する。
我々は,100件のCNN DailyMail記事に対する人間の嗜好調査を行い,バニラプロンプトが生成したものよりもGPT-4の要約の方が好まれていることを発見した。
論文 参考訳(メタデータ) (2023-09-08T11:31:08Z) - Argumentative Segmentation Enhancement for Legal Summarization [0.913755431537592]
GPT-3.5は、引数セグメントに基づいて要約を生成するために使用される。
自動評価の指標から,提案手法は高品質な議論的要約を生成する。
論文 参考訳(メタデータ) (2023-07-11T07:29:18Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。