論文の概要: RefGPT: Reference -> Truthful & Customized Dialogues Generation by GPTs
and for GPTs
- arxiv url: http://arxiv.org/abs/2305.14994v2
- Date: Thu, 25 May 2023 02:20:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 10:23:29.265927
- Title: RefGPT: Reference -> Truthful & Customized Dialogues Generation by GPTs
and for GPTs
- Title(参考訳): RefGPT: 参照 -> GPT と GPT による真正かつカスタマイズされた対話生成
- Authors: Dongjie Yang, Ruifeng Yuan, YuanTao Fan, YiFei Yang, Zili Wang, Shusen
Wang, Hai Zhao
- Abstract要約: ChatGPTのような一般的なチャットモデルは、高品質な命令データでLLM(Large Language Models)をチューニングすることで、幅広いNLPタスクを解決するための印象的な能力を得た。
しかし、人間による高品質なデータ収集、特にマルチターン対話は高価であり、ほとんどの人にとっては実現不可能である。
本稿では,モデル幻覚による事実の誤りを気にすることなく,膨大な真実とカスタマイズされた対話を生成するためのRefGPTを提案する。
- 参考スコア(独自算出の注目度): 71.81088030649154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General chat models, like ChatGPT, have attained impressive capability to
resolve a wide range of NLP tasks by tuning Large Language Models (LLMs) with
high-quality instruction data. However, collecting human-written high-quality
data, especially multi-turn dialogues, is expensive and unattainable for most
people. Though previous studies have used powerful LLMs to generate the
dialogues automatically, but they all suffer from generating untruthful
dialogues because of the LLMs hallucination. Therefore, we propose a method
called RefGPT to generate enormous truthful and customized dialogues without
worrying about factual errors caused by the model hallucination. RefGPT solves
the model hallucination in dialogue generation by restricting the LLMs to
leverage the given reference instead of reciting their own knowledge to
generate dialogues. Additionally, RefGPT adds detailed controls on every
utterances to enable highly customization capability, which previous studies
have ignored. On the basis of RefGPT, we also propose two high-quality dialogue
datasets generated by GPT-4, namely RefGPT-Fact and RefGPT-Code. RefGPT-Fact is
100k multi-turn dialogue datasets based on factual knowledge and RefGPT-Code is
76k multi-turn dialogue dataset covering a wide range of coding scenarios. Our
code and datasets are released in https://github.com/ziliwangnlp/RefGPT
- Abstract(参考訳): ChatGPTのような一般的なチャットモデルは、高品質な命令データでLLM(Large Language Models)をチューニングすることで、幅広いNLPタスクを解決するための印象的な能力を得た。
しかし、人間による高品質なデータ収集、特にマルチターン対話は、ほとんどの人にとって高価で持続不可能である。
これまでの研究では、強力なLLMを使って対話を自動的に生成していたが、LLMの幻覚のため、すべて非現実的な対話を発生させる。
そこで本研究では,RefGPTという手法を用いて,モデル幻覚による事実誤りを気にすることなく,膨大な真実とカスタマイズされた対話を生成する手法を提案する。
refgptは、会話生成におけるモデル幻覚を、llmが与えられた参照を利用するように制限することで解決する。
さらに、RefGPTはすべての発話の詳細な制御を追加し、高度なカスタマイズを可能にする。
また、RefGPTに基づいて、GPT-4によって生成された2つの高品質な対話データセット、すなわちRefGPT-FactとRefGPT-Codeを提案する。
RefGPT-Factは事実知識に基づく100kのマルチターン対話データセットであり、RefGPT-Codeは幅広いコーディングシナリオをカバーする76kのマルチターン対話データセットである。
私たちのコードとデータセットはhttps://github.com/ziliwangnlp/RefGPTで公開されています
関連論文リスト
- Synthetic Dialogue Dataset Generation using LLM Agents [7.933485970511388]
我々は,会話エージェントとして機能するエージェントと,ユーザとして機能するエージェントを2つ開発する。
ユーザが利用できるNL4Optからの線形問題に関するテキスト記述のセットを使用して、エージェントとユーザは、元の問題記述からすべてのキー情報を取得するまで会話を行う。
我々は,人間の評価指標を再現するためにGPT-4を用いた評価手法を含む,人的および自動評価を行う。
論文 参考訳(メタデータ) (2024-01-30T21:49:30Z) - Are LLMs Robust for Spoken Dialogues? [10.855403629160921]
大規模な事前学習型言語モデルでは、さまざまな下流タスクで最先端のパフォーマンスが実証されている。
タスク指向対話に関する公開データセットとベンチマークのほとんどは、書かれた会話に重点を置いている。
DSTC11テストセットにおける音声タスク指向対話におけるLLMの性能評価を行った。
論文 参考訳(メタデータ) (2024-01-04T14:36:38Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation [55.82577086422923]
文書地上対話の助けを借りて,対話のセグメンテーションポイントを実現可能な定義を提供する。
我々は,9,478の対話を含むSuperDialsegと呼ばれる大規模教師付きデータセットをリリースする。
また、対話セグメンテーションタスクの5つのカテゴリにまたがる18のモデルを含むベンチマークも提供する。
論文 参考訳(メタデータ) (2023-05-15T06:08:01Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Large Language Models Meet Harry Potter: A Bilingual Dataset for
Aligning Dialogue Agents with Characters [70.84938803753062]
本稿では,対話エージェントと文字アライメントの研究を進めるために設計されたHarry Potter Dialogueデータセットを紹介する。
このデータセットはハリー・ポッターシリーズのすべての対話セッション(英語と中国語の両方)を含んでいる。
対話シーン、話者、人物関係、属性など、重要な背景情報とともに注釈付けされている。
論文 参考訳(メタデータ) (2022-11-13T10:16:39Z) - What Did You Say? Task-Oriented Dialog Datasets Are Not Conversational!? [4.022057598291766]
我々は,MultiWOZ,SGD,SMCalFlowの対話効果と文脈効果の分類を概説する。
我々は、MultiWOZのターンの4%未満、SGDのターンの10%が会話型であるのに対して、SMCalFlowは現在のリリースでは会話型ではないことを発見した。
論文 参考訳(メタデータ) (2022-03-07T14:26:23Z) - Language Model as an Annotator: Exploring DialoGPT for Dialogue
Summarization [29.887562761942114]
本稿では,対話応答生成のための事前学習モデルであるDialoGPTを,教師なし対話アノテータとして開発する方法を示す。
ダイアロGPTを用いて、2つの対話要約データセット(SAMSumとAMI)に3種類の特徴をラベル付けし、事前学習モデルと非訓練モデルを用いて要約する。
論文 参考訳(メタデータ) (2021-05-26T13:50:13Z) - Paraphrase Augmented Task-Oriented Dialog Generation [68.1790912977053]
本稿では,パラフレーズモデルと応答生成モデルを協調訓練するパラフレーズ拡張応答生成(PARG)フレームワークを提案する。
また、ダイアログ状態とダイアログアクトラベルに基づいて、パラフレーズトレーニングデータセットを自動構築する手法も設計する。
論文 参考訳(メタデータ) (2020-04-16T05:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。