論文の概要: Can GPT models Follow Human Summarization Guidelines? Evaluating ChatGPT
and GPT-4 for Dialogue Summarization
- arxiv url: http://arxiv.org/abs/2310.16810v1
- Date: Wed, 25 Oct 2023 17:39:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 13:11:47.806938
- Title: Can GPT models Follow Human Summarization Guidelines? Evaluating ChatGPT
and GPT-4 for Dialogue Summarization
- Title(参考訳): GPTモデルは人間の要約ガイドラインに従うことができるか?
対話要約のためのChatGPTとGPT-4の評価
- Authors: Yongxin Zhou, Fabien Ringeval, Fran\c{c}ois Portet
- Abstract要約: 本研究は,対話要約のための人間のガイドラインに従う上で,ChatGPT や GPT-4 のようなプロンプト駆動型大規模言語モデル (LLM) の能力について検討する。
以上の結果から,GPTモデルは長大な要約を産出し,人間の要約ガイドラインから逸脱することが多いことが示唆された。
人間のガイドラインを中間的なステップとして使うと、約束が示され、いくつかのケースでは単語長の制約プロンプトよりも優れています。
- 参考スコア(独自算出の注目度): 2.6321077922557192
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This study explores the capabilities of prompt-driven Large Language Models
(LLMs) like ChatGPT and GPT-4 in adhering to human guidelines for dialogue
summarization. Experiments employed DialogSum (English social conversations)
and DECODA (French call center interactions), testing various prompts:
including prompts from existing literature and those from human summarization
guidelines, as well as a two-step prompt approach. Our findings indicate that
GPT models often produce lengthy summaries and deviate from human summarization
guidelines. However, using human guidelines as an intermediate step shows
promise, outperforming direct word-length constraint prompts in some cases. The
results reveal that GPT models exhibit unique stylistic tendencies in their
summaries. While BERTScores did not dramatically decrease for GPT outputs
suggesting semantic similarity to human references and specialised pre-trained
models, ROUGE scores reveal grammatical and lexical disparities between
GPT-generated and human-written summaries. These findings shed light on the
capabilities and limitations of GPT models in following human instructions for
dialogue summarization.
- Abstract(参考訳): 本研究は,対話要約のための人間のガイドラインに従う上で,ChatGPT や GPT-4 のようなプロンプト駆動型大規模言語モデル (LLM) の能力について検討する。
実験では、DialogSum(英語の社会会話)とDECODA(フランス語のコールセンター対話)を使用し、既存の文献からのプロンプトや人間の要約ガイドラインからのプロンプト、そして2段階のプロンプトアプローチなど、様々なプロンプトをテストした。
以上の結果から,gptモデルは長い要約を生成し,人間の要約ガイドラインから逸脱することが多い。
しかし、人間のガイドラインを中間のステップとして使うと約束が示され、場合によっては直接の単語長制約プロンプトよりも優れている。
その結果,GPTモデルは要約に独特のスタイル傾向を示すことがわかった。
BERTScoresは、人間の参照と意味的類似性を示すGPT出力を劇的に減少させることはなかったが、ROUGEスコアは、GPT生成と人文要約の文法的および語彙的相違を明らかにする。
これらの結果は、対話要約のための人間の指示に従うGPTモデルの能力と限界に光を当てた。
関連論文リスト
- Information-Theoretic Distillation for Reference-less Summarization [67.51150817011617]
本稿では,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しい枠組みを提案する。
我々は,教師モデルとしてPythia-2.8Bから出発する。
我々は,ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトだが強力な要約器に到達した。
論文 参考訳(メタデータ) (2024-03-20T17:42:08Z) - AugSumm: towards generalizable speech summarization using synthetic
labels from large language model [61.73741195292997]
抽象音声要約(SSUM)は、音声から人間に似た要約を生成することを目的としている。
従来のSSUMモデルは、主に、人間による注釈付き決定論的要約(英語版)を用いて訓練され、評価されている。
AugSummは,人間のアノテータが拡張要約を生成するためのプロキシとして,大規模言語モデル(LLM)を利用する手法である。
論文 参考訳(メタデータ) (2024-01-10T18:39:46Z) - On the Generalization of Training-based ChatGPT Detection Methods [33.46128880100525]
ChatGPTは、様々な自然言語タスクにおいて素晴らしいパフォーマンスを達成する最もポピュラーな言語モデルの1つである。
また、人書きから生成されたChatGPTのテキストを検出する必要がある。
論文 参考訳(メタデータ) (2023-10-02T16:13:08Z) - Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect
ChatGPT-Generated Text [48.36706154871577]
我々はHPPT(ChatGPT-polished academic abstracts)と呼ばれる新しいデータセットを紹介する。
純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。
また,ChatGPTによる修正の度合いを,オリジナルの人文テキストと比較した革新的な尺度であるPolish Ratio法を提案する。
論文 参考訳(メタデータ) (2023-07-21T06:38:37Z) - ChatGPT vs Human-authored Text: Insights into Controllable Text
Summarization and Sentence Style Transfer [8.64514166615844]
2つの制御可能な生成タスクにおいてChatGPTの性能を体系的に検査する。
生成したテキストの忠実度を評価し、そのモデルの性能を人間によるテキストと比較する。
テキストを特定のスタイルに適合させる際に、ChatGPTは時に事実的誤りや幻覚を取り入れている。
論文 参考訳(メタデータ) (2023-06-13T14:21:35Z) - On the Detectability of ChatGPT Content: Benchmarking, Methodology, and Evaluation through the Lens of Academic Writing [10.534162347659514]
そこで我々は,ChatGPT文中の微妙で深い意味的・言語的パターンをよりよく捉えるために,CheckGPTというディープニューラルネットワークフレームワークを開発した。
ChatGPTコンテンツの検出性を評価するため、我々はCheckGPTの転送性、迅速なエンジニアリング、ロバスト性について広範な実験を行った。
論文 参考訳(メタデータ) (2023-06-07T12:33:24Z) - Comparing Abstractive Summaries Generated by ChatGPT to Real Summaries
Through Blinded Reviewers and Text Classification Algorithms [0.8339831319589133]
OpenAIが開発したChatGPTは、言語モデルのファミリに最近追加されたものだ。
自動メトリクスと視覚障害者による抽象要約におけるChatGPTの性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:28:33Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - Exploring the Limits of ChatGPT for Query or Aspect-based Text
Summarization [28.104696513516117]
GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。
最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。
実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-02-16T04:41:30Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。