論文の概要: Exploring the features used for summary evaluation by Human and GPT
- arxiv url: http://arxiv.org/abs/2512.19620v1
- Date: Mon, 22 Dec 2025 17:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.867064
- Title: Exploring the features used for summary evaluation by Human and GPT
- Title(参考訳): 人間とGPTによる要約評価に用いる特徴の探索
- Authors: Zahra Sadeghi, Evangelos Milios, Frank Rudzicz,
- Abstract要約: 本研究では, 統計的および機械学習の指標を用いて, 人・生成前変圧器の応答に適合する特徴について検討した。
我々は,GPTに対して,ヒトが用いた指標を取り入れるように指示することで,判断を改善し,ヒトの反応に適合させることを実証した。
- 参考スコア(独自算出の注目度): 13.525340904948829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Summary assessment involves evaluating how well a generated summary reflects the key ideas and meaning of the source text, requiring a deep understanding of the content. Large Language Models (LLMs) have been used to automate this process, acting as judges to evaluate summaries with respect to the original text. While previous research investigated the alignment between LLMs and Human responses, it is not yet well understood what properties or features are exploited by them when asked to evaluate based on a particular quality dimension, and there has not been much attention towards mapping between evaluation scores and metrics. In this paper, we address this issue and discover features aligned with Human and Generative Pre-trained Transformers (GPTs) responses by studying statistical and machine learning metrics. Furthermore, we show that instructing GPTs to employ metrics used by Human can improve their judgment and conforming them better with human responses.
- Abstract(参考訳): 要約評価は、生成した要約が、ソーステキストのキーアイデアと意味をどの程度よく反映しているかを評価することを含み、コンテンツについて深く理解する必要がある。
大規模言語モデル(LLM)はこのプロセスを自動化するために使われており、原文に関する要約を評価するために裁判官として機能している。
従来, LLMとヒトの反応のアライメントについて検討してきたが, 特定の品質次元に基づいて評価を行う際に, どのような特性や特徴が活用されるのかはよく分かっておらず, 評価スコアと測定値のマッピングにはあまり注意が払われていない。
本稿では、この課題に対処し、統計的および機械学習のメトリクスを研究することにより、人間および生成前学習者(GPT)の応答に対応する特徴を発見する。
さらに,GPTに人為的な指標を取り入れるように指示することで,判断が向上し,人間の反応に適合することが示唆された。
関連論文リスト
- HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Evaluating Text Summaries Generated by Large Language Models Using OpenAI's GPT [0.6740832660968358]
本研究では,OpenAI の GPT モデルを6つの変圧器モデルから生成したテキスト要約の独立評価器としての有効性について検討する。
ROUGEやLatent Semantic Analysis(LSA)といった従来の指標を用いて、高品質な要約(簡潔さ、妥当性、コヒーレンス、可読性)の本質的特性に基づいて、これらの要約を評価した。
分析の結果,GPTと従来の指標との間に有意な相関が認められた。
論文 参考訳(メタデータ) (2024-05-07T06:52:34Z) - Can GPT models Follow Human Summarization Guidelines? A Study for Targeted Communication Goals [4.406830461180521]
本研究では,GPTモデルが人間のガイドラインに準拠した対話要約を生成する能力について検討した。
本研究は,タスク固有の事前学習モデルと参照要約よりGPT生成サマリーを優先することを明らかにする。
ROUGE、BERTScore、人間評価の相違は、より信頼性の高い自動評価指標の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-25T17:39:07Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Is Summary Useful or Not? An Extrinsic Human Evaluation of Text
Summaries on Downstream Tasks [45.550554287918885]
本稿では,外部手法によるテキスト要約の有用性の評価に焦点をあてる。
我々は,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの異なる下流タスクを設計する。
要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。
論文 参考訳(メタデータ) (2023-05-24T11:34:39Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。