論文の概要: ChatLog: Recording and Analyzing ChatGPT Across Time
- arxiv url: http://arxiv.org/abs/2304.14106v1
- Date: Thu, 27 Apr 2023 11:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 13:37:54.582591
- Title: ChatLog: Recording and Analyzing ChatGPT Across Time
- Title(参考訳): chatlog: chatgptを時間にわたって記録および分析する
- Authors: Shangqing Tu, Chunyang Li, Jifan Yu, Xiaozhi Wang, Lei Hou, Juanzi Li
- Abstract要約: ChatLog-Monthlyは、毎月38,730の質問応答ペアのデータセットで、推論タスクと分類タスクの両方からの質問が含まれている。
ChatLog-DailyはChatGPTの長文生成のための1000の同一質問に対する応答で構成されている。
本稿では,ChatGPTの進化パターンの存在を示す証拠として,総合的な自動評価と人的評価を行う。
そこで我々は,ChatGPTの新バージョンにおけるRoBERTa型検出器のロバスト性向上のための安定な特徴を見出した。
- 参考スコア(独自算出の注目度): 26.838238484919092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While there are abundant researches about evaluating ChatGPT on natural
language understanding and generation tasks, few studies have investigated how
ChatGPT's behavior changes over time. In this paper, we collect a
coarse-to-fine temporal dataset called ChatLog, consisting of two parts that
update monthly and daily: ChatLog-Monthly is a dataset of 38,730
question-answer pairs collected every month including questions from both the
reasoning and classification tasks. ChatLog-Daily, on the other hand, consists
of ChatGPT's responses to 1000 identical questions for long-form generation
every day. We conduct comprehensive automatic and human evaluation to provide
the evidence for the existence of ChatGPT evolving patterns. We further analyze
the unchanged characteristics of ChatGPT over time by extracting its knowledge
and linguistic features. We find some stable features to improve the robustness
of a RoBERTa-based detector on new versions of ChatGPT. We will continuously
maintain our project at https://github.com/THU-KEG/ChatLog.
- Abstract(参考訳): chatgptを自然言語理解と生成タスクで評価する研究は豊富であるが、chatgptの行動が時間とともにどのように変化するかの研究はほとんどない。
本稿では、ChatLog-Monthlyという、毎月と毎日更新される2つの部分からなる、粗い時間間データセットを収集する。
一方ChatLog-Dailyは、ChatGPTの回答から、毎日1000の同じ質問に対して長文生成を行う。
chatgpt進化パターンの存在の証拠を提供するため、包括的な自動的および人間的評価を行う。
さらに,その知識と言語的特徴を抽出することにより,ChatGPTの経時変化特性を解析する。
我々は,ChatGPTの新バージョンにおけるRoBERTa型検出器のロバスト性を向上させるための安定な特徴を見出した。
プロジェクトをhttps://github.com/thu-keg/chatlogで継続的にメンテナンスします。
関連論文リスト
- How ChatGPT is Solving Vulnerability Management Problem [58.31828926938327]
78,445のサンプルを含む大規模データセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を調査する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - Can You Follow Me? Testing Situational Understanding in ChatGPT [17.52769657390388]
situational understanding (SU)は、人間のようなAIエージェントにとって重要な能力である。
チャット指向モデルにおけるSUテストのための新しい合成環境を提案する。
タスクの基本的な単純さにもかかわらず、モデルの性能は正しい環境状態を維持することができないことを反映している。
論文 参考訳(メタデータ) (2023-10-24T19:22:01Z) - Chatbot-supported Thesis Writing: An Autoethnographic Report [0.0]
チャットGPTは、学士論文や学生研究論文など、学習者がテキストを生成する必要のあるフォーマットに適用される。
ChatGPTは、論文を書く上で有益なツールとして評価される。
しかし、決定的な論文を書くには、学習者の意味のある関与が必要である。
論文 参考訳(メタデータ) (2023-10-14T09:09:26Z) - Is Information Extraction Solved by ChatGPT? An Analysis of Performance,
Evaluation Criteria, Robustness and Errors [14.911130381374793]
最初にChatGPTのパフォーマンスを、ゼロショット、少数ショット、チェーンオブ思考のシナリオの下で14のIEサブタスクを持つ17のデータセットで評価した。
次に、14のIEサブタスクにおけるChatGPTのロバスト性を分析し、1)ChatGPTが無効な応答をほとんど出力しないこと、2)ChatGPTの性能に関係のないコンテキストと長期ターゲットタイプが大きな影響を与えること、3)ChatGPTはREタスクにおける主観的対象関係をうまく理解できないこと、を見出した。
論文 参考訳(メタデータ) (2023-05-23T18:17:43Z) - Can ChatGPT Reproduce Human-Generated Labels? A Study of Social
Computing Tasks [9.740764281808588]
ChatGPTは、ソーシャルコンピューティングタスクにおいて人為的なラベルアノテーションを再現する可能性がある。
姿勢検出(2x),感情分析,ヘイトスピーチ,ボット検出の5つのデータセットを抽出した。
この結果から,ChatGPTはこれらのデータアノテーションタスクを処理できる可能性を秘めていますが,いくつかの課題が残っています。
論文 参考訳(メタデータ) (2023-04-20T08:08:12Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。