論文の概要: How is ChatGPT's behavior changing over time?
- arxiv url: http://arxiv.org/abs/2307.09009v1
- Date: Tue, 18 Jul 2023 06:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 16:14:18.622948
- Title: How is ChatGPT's behavior changing over time?
- Title(参考訳): ChatGPTの行動は時間とともにどのように変化するのか?
- Authors: Lingjiao Chen and Matei Zaharia and James Zou
- Abstract要約: 2023年3月から6月にかけてのGPT-3.5およびGPT-4の評価を行った。
GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
- 参考スコア(独自算出の注目度): 36.94826820536239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPT-3.5 and GPT-4 are the two most widely used large language model (LLM)
services. However, when and how these models are updated over time is opaque.
Here, we evaluate the March 2023 and June 2023 versions of GPT-3.5 and GPT-4 on
four diverse tasks: 1) solving math problems, 2) answering sensitive/dangerous
questions, 3) generating code and 4) visual reasoning. We find that the
performance and behavior of both GPT-3.5 and GPT-4 can vary greatly over time.
For example, GPT-4 (March 2023) was very good at identifying prime numbers
(accuracy 97.6%) but GPT-4 (June 2023) was very poor on these same questions
(accuracy 2.4%). Interestingly GPT-3.5 (June 2023) was much better than GPT-3.5
(March 2023) in this task. GPT-4 was less willing to answer sensitive questions
in June than in March, and both GPT-4 and GPT-3.5 had more formatting mistakes
in code generation in June than in March. Overall, our findings shows that the
behavior of the same LLM service can change substantially in a relatively short
amount of time, highlighting the need for continuous monitoring of LLM quality.
- Abstract(参考訳): GPT-3.5とGPT-4は2つの最も広く使われている大規模言語モデル(LLM)である。
しかし、これらのモデルがいつどのように更新されるかは不透明である。
ここでは,GPT-3.5とGPT-4の2023年3月および2023年6月版を4つのタスクで評価する。
1)数学の問題を解く。
2)敏感で危険な質問に答えること。
3) コードの生成と
4) 視覚的推論。
GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。
例えば、GPT-4(2023年3月)は素数(精度97.6%)の同定に非常に優れていたが、GPT-4(2023年6月)はこれらの同じ質問(精度2.4%)で非常に貧弱であった。
興味深いことに GPT-3.5 (2023年6月) は GPT-3.5 (2023年3月) よりもはるかに優れていた。
GPT-4は3月よりセンシティブな質問に答える意思が低く、GPT-4とGPT-3.5は3月よりコード生成のフォーマットミスが多かった。
以上の結果から,LLMサービスの動作は比較的短時間で大幅に変化し,LLM品質の継続的なモニタリングの必要性が示唆された。
関連論文リスト
- Behind the Screen: Investigating ChatGPT's Dark Personality Traits and
Conspiracy Beliefs [0.0]
本稿では, GPT-3.5 と GPT-4 の暗黒性格特性と陰謀信念を分析した。
ダークパーソナリティの特徴と陰謀の信念はどちらのモデルでも特に強調されなかった。
論文 参考訳(メタデータ) (2024-02-06T16:03:57Z) - Prompt Engineering or Fine Tuning: An Empirical Assessment of Large
Language Models in Automated Software Engineering Tasks [8.223311621898983]
対話型プロンプトを持つ GPT-4 は, 自動プロンプト戦略を持つ GPT-4 に比べて劇的な改善を示した。
完全に自動化されたプロンプトエンジニアリング ループに人間はいない より多くの研究と改善が必要です
論文 参考訳(メタデータ) (2023-10-11T00:21:00Z) - GPT-4 Can't Reason [6.040938686276303]
GPT-4は2023年3月に公開され、広く称賛された。
時折解析的輝きが増すが、現在のGPT-4は推論が全くできない。
論文 参考訳(メタデータ) (2023-07-21T17:04:25Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z) - Is GPT-4 a Good Data Analyst? [67.35956981748699]
我々は、GPT-4を、広範囲のドメインのデータベースでエンドツーエンドのデータ分析を行うためのデータ分析であると考えている。
我々は,複数の専門家データアナリストとGPT-4のパフォーマンスを体系的に比較するために,タスク固有の評価指標を設計する。
実験の結果, GPT-4はヒトに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-05-24T11:26:59Z) - Gpt-4: A Review on Advancements and Opportunities in Natural Language
Processing [0.0]
Generative Pre-trained Transformer 4 (GPT-4) は、OpenAIが開発したGPTシリーズの第4世代言語モデルである。
GPT-4は、GPT-3よりもモデルサイズが大きく(1兆ドル以上)、多言語能力、文脈理解の改善、推論能力が優れている。
GPT-4の潜在的な応用には、チャットボット、パーソナルアシスタント、言語翻訳、テキスト要約、質問応答などがある。
論文 参考訳(メタデータ) (2023-05-04T22:46:43Z) - Instruction Tuning with GPT-4 [107.55078894215798]
本稿では, GPT-4を用いて命令追従データを生成し, 大規模言語モデルを微調整する試みについて述べる。
命令調整型LLaMAモデルの初期実験では、52Kの英語と中国語の命令追従データがGPT-4によって生成され、新しいタスクにおけるゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2023-04-06T17:58:09Z) - Analyzing the Performance of GPT-3.5 and GPT-4 in Grammatical Error
Correction [28.58384091374763]
GPT-3とGPT-4モデルは強力で、様々な自然言語処理タスクで高い性能を発揮する。
GPT-3.5 モデル (text-davinci-003) と GPT-4 モデル (gpt-4-0314) の機能を GEC ベンチマークで検証した。
BEA-2019およびJFLEGデータセットにおける最良プロンプトの性能について報告する。
論文 参考訳(メタデータ) (2023-03-25T03:08:49Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。