論文の概要: Can GPT models Follow Human Summarization Guidelines? A Study for Targeted Communication Goals
- arxiv url: http://arxiv.org/abs/2310.16810v2
- Date: Mon, 07 Apr 2025 21:42:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:27:32.158651
- Title: Can GPT models Follow Human Summarization Guidelines? A Study for Targeted Communication Goals
- Title(参考訳): GPTモデルは人間の要約ガイドラインに従うことができるか? : 目標とするコミュニケーション目標の検討
- Authors: Yongxin Zhou, Fabien Ringeval, François Portet,
- Abstract要約: 本研究では,GPTモデルが人間のガイドラインに準拠した対話要約を生成する能力について検討した。
本研究は,タスク固有の事前学習モデルと参照要約よりGPT生成サマリーを優先することを明らかにする。
ROUGE、BERTScore、人間評価の相違は、より信頼性の高い自動評価指標の必要性を浮き彫りにする。
- 参考スコア(独自算出の注目度): 3.875021622948646
- License:
- Abstract: This study investigates the ability of GPT models (ChatGPT, GPT-4 and GPT-4o) to generate dialogue summaries that adhere to human guidelines. Our evaluation involved experimenting with various prompts to guide the models in complying with guidelines on two datasets: DialogSum (English social conversations) and DECODA (French call center interactions). Human evaluation, based on summarization guidelines, served as the primary assessment method, complemented by extensive quantitative and qualitative analyses. Our findings reveal a preference for GPT-generated summaries over those from task-specific pre-trained models and reference summaries, highlighting GPT models' ability to follow human guidelines despite occasionally producing longer outputs and exhibiting divergent lexical and structural alignment with references. The discrepancy between ROUGE, BERTScore, and human evaluation underscores the need for more reliable automatic evaluation metrics.
- Abstract(参考訳): 本研究では, GPTモデル(ChatGPT, GPT-4, GPT-4o)が人間のガイドラインに準拠した対話要約を生成する能力について検討した。
本評価では,DialogSum (英語社会会話) とDECODA (フランス語コールセンターインタラクション) の2つのデータセットのガイドラインに従ってモデルをガイドする様々なプロンプトの実験を行った。
要約ガイドラインに基づく人的評価は, 定量的, 定性的な分析によって補完され, 主評価法として機能した。
本研究は,GPTモデルが時折より長いアウトプットを生成する一方で,GPTモデルが人間のガイドラインに従う能力を示すとともに,参照と異なる語彙的・構造的アライメントを示すことを特徴として,タスク固有の事前学習モデルと参照サマリーよりGPT生成サマリーを優先することを明らかにする。
ROUGE、BERTScore、人間評価の相違は、より信頼性の高い自動評価指標の必要性を浮き彫りにする。
関連論文リスト
- Information-Theoretic Distillation for Reference-less Summarization [67.51150817011617]
本稿では,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しい枠組みを提案する。
我々は,教師モデルとしてPythia-2.8Bから出発する。
我々は,ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトだが強力な要約器に到達した。
論文 参考訳(メタデータ) (2024-03-20T17:42:08Z) - AugSumm: towards generalizable speech summarization using synthetic
labels from large language model [61.73741195292997]
抽象音声要約(SSUM)は、音声から人間に似た要約を生成することを目的としている。
従来のSSUMモデルは、主に、人間による注釈付き決定論的要約(英語版)を用いて訓練され、評価されている。
AugSummは,人間のアノテータが拡張要約を生成するためのプロキシとして,大規模言語モデル(LLM)を利用する手法である。
論文 参考訳(メタデータ) (2024-01-10T18:39:46Z) - On the Generalization of Training-based ChatGPT Detection Methods [33.46128880100525]
ChatGPTは、様々な自然言語タスクにおいて素晴らしいパフォーマンスを達成する最もポピュラーな言語モデルの1つである。
また、人書きから生成されたChatGPTのテキストを検出する必要がある。
論文 参考訳(メタデータ) (2023-10-02T16:13:08Z) - Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect
ChatGPT-Generated Text [48.36706154871577]
我々はHPPT(ChatGPT-polished academic abstracts)と呼ばれる新しいデータセットを紹介する。
純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。
また,ChatGPTによる修正の度合いを,オリジナルの人文テキストと比較した革新的な尺度であるPolish Ratio法を提案する。
論文 参考訳(メタデータ) (2023-07-21T06:38:37Z) - ChatGPT vs Human-authored Text: Insights into Controllable Text Summarization and Sentence Style Transfer [13.83503100145004]
2つの制御可能な生成タスクにおいてChatGPTの性能を体系的に検査する。
生成したテキストの忠実度を評価し、そのモデルの性能を人間によるテキストと比較する。
テキストを特定のスタイルに適合させる際に、ChatGPTは時に事実的誤りや幻覚を取り入れている。
論文 参考訳(メタデータ) (2023-06-13T14:21:35Z) - On the Detectability of ChatGPT Content: Benchmarking, Methodology, and Evaluation through the Lens of Academic Writing [10.534162347659514]
そこで我々は,ChatGPT文中の微妙で深い意味的・言語的パターンをよりよく捉えるために,CheckGPTというディープニューラルネットワークフレームワークを開発した。
ChatGPTコンテンツの検出性を評価するため、我々はCheckGPTの転送性、迅速なエンジニアリング、ロバスト性について広範な実験を行った。
論文 参考訳(メタデータ) (2023-06-07T12:33:24Z) - Comparing Abstractive Summaries Generated by ChatGPT to Real Summaries
Through Blinded Reviewers and Text Classification Algorithms [0.8339831319589133]
OpenAIが開発したChatGPTは、言語モデルのファミリに最近追加されたものだ。
自動メトリクスと視覚障害者による抽象要約におけるChatGPTの性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:28:33Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - Exploring the Limits of ChatGPT for Query or Aspect-based Text
Summarization [28.104696513516117]
GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。
最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。
実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-02-16T04:41:30Z) - News Summarization and Evaluation in the Era of GPT-3 [73.48220043216087]
GPT-3は,大規模な要約データセット上で訓練された微調整モデルと比較する。
我々は,GPT-3サマリーが圧倒的に好まれるだけでなく,タスク記述のみを用いることで,現実性に乏しいようなデータセット固有の問題に悩まされることも示している。
論文 参考訳(メタデータ) (2022-09-26T01:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。