論文の概要: Guiding ChatGPT to Generate Salient Domain Summaries
- arxiv url: http://arxiv.org/abs/2406.01070v1
- Date: Mon, 3 Jun 2024 07:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 02:08:05.570610
- Title: Guiding ChatGPT to Generate Salient Domain Summaries
- Title(参考訳): ChatGPTによる高次ドメインサマリ生成の誘導
- Authors: Jun Gao, Ziqiang Cao, Shaoyao Huang, Luozheng Qin, Chunhui Ai,
- Abstract要約: PADS は textbfPipeline で textbfDomain textbfSummarization で ChatGPT をサポートする。
- 参考スコア(独自算出の注目度): 7.845567659176864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ChatGPT is instruct-tuned to generate general and human-expected content to align with human preference through Reinforcement Learning from Human Feedback (RLHF), meanwhile resulting in generated responses not salient enough. Therefore, in this case, ChatGPT may fail to satisfy domain requirements in zero-shot settings, leading to poor ROUGE scores. Inspired by the In-Context Learning (ICL) and retelling ability of ChatGPT, this paper proposes PADS, a \textbf{P}ipeline for \textbf{A}ssisting ChatGPT in \textbf{D}omain \textbf{S}ummarization. PADS consists of a retriever to retrieve similar examples from corpora and a rank model to rerank the multiple candidate summaries generated by ChatGPT. Specifically, given an inference document, we first retrieve an in-context demonstration via the retriever. Then, we require ChatGPT to generate $k$ candidate summaries for the inference document at a time under the guidance of the retrieved demonstration. Finally, the rank model independently scores the $k$ candidate summaries according to their quality and selects the optimal one. We extensively explore dense and sparse retrieval methods to select effective demonstrations for reference and efficiently train the rank model to reflect the quality of candidate summaries for each given summarized document. Additionally, PADS contains merely 400M trainable parameters originating from the rank model and we merely collect 2.5k data to train it. We evaluate PADS on five datasets from different domains, and the result indicates that each module in PADS is committed to effectively guiding ChatGPT to generate salient summaries fitting different domain requirements. Specifically, in the popular summarization dataset Gigaword, PADS achieves over +8 gain on ROUGE-L, compared with the naive ChatGPT in the zero-shot setting. \footnote{Our code are available at \url{https://github.com/jungao1106/PADS}}
- Abstract(参考訳): チャットGPTは、ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)を通じて、人間の嗜好に合わせるために、一般的な、人為的なコンテンツを生成するよう指示される。
したがって、この場合、ChatGPTはゼロショット設定でドメイン要件を満たすことができず、ROUGEスコアが低い。
In-Context Learning (ICL) と ChatGPT のリテリング能力に触発された本論文では,ChatGPT を \textbf{D}omain \textbf{S}ummarization でサポートするための PADS を提案する。
PADSは、コーパスから類似した例を検索する検索器と、ChatGPTが生成した複数の候補要約をランク付けするランクモデルで構成される。
具体的には、推論文書が与えられたら、最初に検索者を通してコンテキスト内デモを検索する。
次に、ChatGPTは、検索したデモのガイダンスに基づいて、推論文書に対して$k$の候補要約を生成する必要がある。
最後に、ランクモデルは、その品質に応じて$k$候補サマリーを独立にスコアし、最適なサマリーを選択する。
提案手法を広範に検討し、参照のための効果的な実演を選択するとともに、各要約文書の候補要約の質を反映するランクモデルを効果的に訓練する。
さらに、PADSにはランクモデルから派生した4億のトレーニング可能なパラメータが含まれており、トレーニングには2.5kのデータのみを収集する。
その結果,PADSの各モジュールはChatGPTを効果的に誘導し,異なるドメイン要件に適合した有能な要約を生成することが示唆された。
具体的には、一般的な要約データセットであるGigawordでは、PADSはゼロショット設定の単純なChatGPTと比較して、ROUGE-Lで+8以上のゲインを達成する。
\footnote{Our code are available at \url{https://github.com/jungao1106/PADS}}
関連論文リスト
- AugSumm: towards generalizable speech summarization using synthetic
labels from large language model [61.73741195292997]
抽象音声要約(SSUM)は、音声から人間に似た要約を生成することを目的としている。
従来のSSUMモデルは、主に、人間による注釈付き決定論的要約(英語版)を用いて訓練され、評価されている。
AugSummは,人間のアノテータが拡張要約を生成するためのプロキシとして,大規模言語モデル(LLM)を利用する手法である。
論文 参考訳(メタデータ) (2024-01-10T18:39:46Z) - Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - Evaluating Large Language Models for Document-grounded Response
Generation in Information-Seeking Dialogues [17.41334279810008]
情報検索対話の文脈において,ChatGPTのような大規模言語モデル(LLM)を用いた文書グラウンド応答生成について検討する。
評価には4つのソーシャルサービスドメインにおけるタスク指向対話のMultiDoc2Dialコーパスを用いる。
両方のChatGPT変異体は、おそらく幻覚の存在を含む関連セグメントに存在しない情報を含んでいる可能性が高いが、それらは共有タスクの勝利システムと人間の反応の両方よりも高い評価を受けている。
論文 参考訳(メタデータ) (2023-09-21T07:28:03Z) - Pushing the Limits of ChatGPT on NLP Tasks [79.17291002710517]
ChatGPTの成功にもかかわらず、ほとんどのNLPタスクのパフォーマンスは教師付きベースラインよりかなり低い。
そこで本研究では,原因を調べた結果,以下の要因が原因であることが判明した。
NLPタスクにおけるChatGPTの限界を押し上げるために,これらの問題に対処する汎用モジュールの集合を提案する。
論文 参考訳(メタデータ) (2023-06-16T09:40:05Z) - Generating EDU Extracts for Plan-Guided Summary Re-Ranking [77.7752504102925]
要約候補を生成して1つの要約を返す2段階のアプローチでは、標準的な単一ステップアプローチよりもROUGEスコアを改善することができる。
これらの問題に対処する再ランク付け候補を生成するための新しい手法を設計する。
広く使われている単一文書ニュース記事コーパスにおいて,以前に公表された手法よりも大きな関連性を示した。
論文 参考訳(メタデータ) (2023-05-28T17:22:04Z) - Is Information Extraction Solved by ChatGPT? An Analysis of Performance,
Evaluation Criteria, Robustness and Errors [14.911130381374793]
最初にChatGPTのパフォーマンスを、ゼロショット、少数ショット、チェーンオブ思考のシナリオの下で14のIEサブタスクを持つ17のデータセットで評価した。
次に、14のIEサブタスクにおけるChatGPTのロバスト性を分析し、1)ChatGPTが無効な応答をほとんど出力しないこと、2)ChatGPTの性能に関係のないコンテキストと長期ターゲットタイプが大きな影響を与えること、3)ChatGPTはREタスクにおける主観的対象関係をうまく理解できないこと、を見出した。
論文 参考訳(メタデータ) (2023-05-23T18:17:43Z) - GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content [27.901155229342375]
本稿では,言語モデルを用いたChatGPT生成対人文テキストの検出手法を提案する。
テストデータセットの精度は97%以上で,さまざまな指標から評価した。
論文 参考訳(メタデータ) (2023-05-13T17:12:11Z) - Exploring ChatGPT's Ability to Rank Content: A Preliminary Study on
Consistency with Human Preferences [6.821378903525802]
ChatGPTは、コンテンツ評価における精度と信頼性の顕著なレベルを一貫して証明している。
幅広いユースケースをカバーするプロンプトからなるテストセットを作成し、5つのモデルを使用して対応する応答を生成する。
テストセットの結果は、ChatGPTのランク設定が人間とある程度一致していることを示している。
論文 参考訳(メタデータ) (2023-03-14T03:13:02Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - Exploring the Limits of ChatGPT for Query or Aspect-based Text
Summarization [28.104696513516117]
GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。
最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。
実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-02-16T04:41:30Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。