論文の概要: Can GPT models Follow Human Summarization Guidelines? Evaluating ChatGPT
and GPT-4 for Dialogue Summarization
- arxiv url: http://arxiv.org/abs/2310.16810v1
- Date: Wed, 25 Oct 2023 17:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-10-26 13:11:47.806938
- Title: Can GPT models Follow Human Summarization Guidelines? Evaluating ChatGPT
and GPT-4 for Dialogue Summarization
- Title(参考訳): GPTモデルは人間の要約ガイドラインに従うことができるか?
対話要約のためのChatGPTとGPT-4の評価
- Authors: Yongxin Zhou, Fabien Ringeval, Fran\c{c}ois Portet
- Abstract要約: 本研究は,対話要約のための人間のガイドラインに従う上で,ChatGPT や GPT-4 のようなプロンプト駆動型大規模言語モデル (LLM) の能力について検討する。
以上の結果から,GPTモデルは長大な要約を産出し,人間の要約ガイドラインから逸脱することが多いことが示唆された。
人間のガイドラインを中間的なステップとして使うと、約束が示され、いくつかのケースでは単語長の制約プロンプトよりも優れています。
- 参考スコア(独自算出の注目度): 2.6321077922557192
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study explores the capabilities of prompt-driven Large Language Models
(LLMs) like ChatGPT and GPT-4 in adhering to human guidelines for dialogue
summarization. Experiments employed DialogSum (English social conversations)
and DECODA (French call center interactions), testing various prompts:
including prompts from existing literature and those from human summarization
guidelines, as well as a two-step prompt approach. Our findings indicate that
GPT models often produce lengthy summaries and deviate from human summarization
guidelines. However, using human guidelines as an intermediate step shows
promise, outperforming direct word-length constraint prompts in some cases. The
results reveal that GPT models exhibit unique stylistic tendencies in their
summaries. While BERTScores did not dramatically decrease for GPT outputs
suggesting semantic similarity to human references and specialised pre-trained
models, ROUGE scores reveal grammatical and lexical disparities between
GPT-generated and human-written summaries. These findings shed light on the
capabilities and limitations of GPT models in following human instructions for
dialogue summarization.
- Abstract(参考訳): 本研究は,対話要約のための人間のガイドラインに従う上で,ChatGPT や GPT-4 のようなプロンプト駆動型大規模言語モデル (LLM) の能力について検討する。
実験では、DialogSum(英語の社会会話)とDECODA(フランス語のコールセンター対話)を使用し、既存の文献からのプロンプトや人間の要約ガイドラインからのプロンプト、そして2段階のプロンプトアプローチなど、様々なプロンプトをテストした。
以上の結果から,gptモデルは長い要約を生成し,人間の要約ガイドラインから逸脱することが多い。
しかし、人間のガイドラインを中間のステップとして使うと約束が示され、場合によっては直接の単語長制約プロンプトよりも優れている。
その結果,GPTモデルは要約に独特のスタイル傾向を示すことがわかった。
BERTScoresは、人間の参照と意味的類似性を示すGPT出力を劇的に減少させることはなかったが、ROUGEスコアは、GPT生成と人文要約の文法的および語彙的相違を明らかにする。
これらの結果は、対話要約のための人間の指示に従うGPTモデルの能力と限界に光を当てた。
関連論文リスト
- Systematic Exploration of Dialogue Summarization Approaches for Reproducibility, Comparative Assessment, and Methodological Innovations for Advancing Natural Language Processing in Abstractive Summarization [0.0]
本稿では,対話要約モデルの再現と評価について述べる。
本研究は、AMIデータセットを用いた対話要約モデルの徹底的な検討を含む。
主な目的は、人的評価を通じて、これらのモデルによって生成された要約の有意性と品質を評価することである。
論文 参考訳(メタデータ) (2024-10-21T12:47:57Z) - Evaluating Text Summaries Generated by Large Language Models Using OpenAI's GPT [0.6740832660968358]
本研究では,OpenAI の GPT モデルを6つの変圧器モデルから生成したテキスト要約の独立評価器としての有効性について検討する。
ROUGEやLatent Semantic Analysis(LSA)といった従来の指標を用いて、高品質な要約(簡潔さ、妥当性、コヒーレンス、可読性)の本質的特性に基づいて、これらの要約を評価した。
分析の結果,GPTと従来の指標との間に有意な相関が認められた。
論文 参考訳(メタデータ) (2024-05-07T06:52:34Z) - Information-Theoretic Distillation for Reference-less Summarization [67.51150817011617]
本稿では,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しい枠組みを提案する。
我々は,教師モデルとしてPythia-2.8Bから出発する。
我々は,ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトだが強力な要約器に到達した。
論文 参考訳(メタデータ) (2024-03-20T17:42:08Z) - AugSumm: towards generalizable speech summarization using synthetic
labels from large language model [61.73741195292997]
抽象音声要約(SSUM)は、音声から人間に似た要約を生成することを目的としている。
従来のSSUMモデルは、主に、人間による注釈付き決定論的要約(英語版)を用いて訓練され、評価されている。
AugSummは,人間のアノテータが拡張要約を生成するためのプロキシとして,大規模言語モデル(LLM)を利用する手法である。
論文 参考訳(メタデータ) (2024-01-10T18:39:46Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large
Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。
ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。
また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文 参考訳(メタデータ) (2023-10-20T20:17:09Z) - On the Generalization of Training-based ChatGPT Detection Methods [33.46128880100525]
ChatGPTは、様々な自然言語タスクにおいて素晴らしいパフォーマンスを達成する最もポピュラーな言語モデルの1つである。
また、人書きから生成されたChatGPTのテキストを検出する必要がある。
論文 参考訳(メタデータ) (2023-10-02T16:13:08Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect
ChatGPT-Generated Text [48.36706154871577]
我々はHPPT(ChatGPT-polished academic abstracts)と呼ばれる新しいデータセットを紹介する。
純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。
また,ChatGPTによる修正の度合いを,オリジナルの人文テキストと比較した革新的な尺度であるPolish Ratio法を提案する。
論文 参考訳(メタデータ) (2023-07-21T06:38:37Z) - ChatGPT vs Human-authored Text: Insights into Controllable Text
Summarization and Sentence Style Transfer [8.64514166615844]
2つの制御可能な生成タスクにおいてChatGPTの性能を体系的に検査する。
生成したテキストの忠実度を評価し、そのモデルの性能を人間によるテキストと比較する。
テキストを特定のスタイルに適合させる際に、ChatGPTは時に事実的誤りや幻覚を取り入れている。
論文 参考訳(メタデータ) (2023-06-13T14:21:35Z) - On the Detectability of ChatGPT Content: Benchmarking, Methodology, and Evaluation through the Lens of Academic Writing [10.534162347659514]
そこで我々は,ChatGPT文中の微妙で深い意味的・言語的パターンをよりよく捉えるために,CheckGPTというディープニューラルネットワークフレームワークを開発した。
ChatGPTコンテンツの検出性を評価するため、我々はCheckGPTの転送性、迅速なエンジニアリング、ロバスト性について広範な実験を行った。
論文 参考訳(メタデータ) (2023-06-07T12:33:24Z) - Comparing Abstractive Summaries Generated by ChatGPT to Real Summaries
Through Blinded Reviewers and Text Classification Algorithms [0.8339831319589133]
OpenAIが開発したChatGPTは、言語モデルのファミリに最近追加されたものだ。
自動メトリクスと視覚障害者による抽象要約におけるChatGPTの性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:28:33Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - Exploring the Limits of ChatGPT for Query or Aspect-based Text
Summarization [28.104696513516117]
GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。
最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。
実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-02-16T04:41:30Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z) - SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。
上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。
我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文 参考訳(メタデータ) (2020-07-24T16:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。