論文の概要: Does GPT-4 Pass the Turing Test?
- arxiv url: http://arxiv.org/abs/2310.20216v1
- Date: Tue, 31 Oct 2023 06:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 16:25:17.682143
- Title: Does GPT-4 Pass the Turing Test?
- Title(参考訳): GPT-4はチューリングテストに合格するのか?
- Authors: Cameron Jones and Benjamin Bergen
- Abstract要約: 最も優れたGPT-4プロンプトは、ELIZA(27%)とGPT-3.5(14%)で設定されたベースラインを上回る41%のゲームでパスした。
我々は、チューリングテストは、自然主義的なコミュニケーションと騙しの評価として、引き続き関係していると論じる。
- 参考スコア(独自算出の注目度): 5.076419064097735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluated GPT-4 in a public online Turing Test. The best-performing GPT-4
prompt passed in 41% of games, outperforming baselines set by ELIZA (27%) and
GPT-3.5 (14%), but falling short of chance and the baseline set by human
participants (63%). Participants' decisions were based mainly on linguistic
style (35%) and socio-emotional traits (27%), supporting the idea that
intelligence is not sufficient to pass the Turing Test. Participants'
demographics, including education and familiarity with LLMs, did not predict
detection rate, suggesting that even those who understand systems deeply and
interact with them frequently may be susceptible to deception. Despite known
limitations as a test of intelligence, we argue that the Turing Test continues
to be relevant as an assessment of naturalistic communication and deception. AI
models with the ability to masquerade as humans could have widespread societal
consequences, and we analyse the effectiveness of different strategies and
criteria for judging humanlikeness.
- Abstract(参考訳): GPT-4をオンラインチューリングテストで評価した。
最も優れたGPT-4プロンプトは、ELIZA (27%) と GPT-3.5 (14%) で設定されたベースラインを上回る41%のゲームでパスしたが、確率は低く、人間によるベースラインは63%であった。
参加者の判断は主に言語的スタイル(35%)と社会的感情的特徴(27%)に基づいており、知性はチューリングテストに合格するには不十分であるという考えを支持した。
教育やllmへの親しみを含む参加者の人口動態は検出率を予測せず、システムの深く理解し、頻繁に相互作用する者でさえ偽装の影響を受けやすいことが示唆された。
知性テストとしての既知の限界にもかかわらず、チューリングテストは、自然主義的なコミュニケーションと偽りの評価として、引き続き関連があると主張する。
人間としてマスクレーディングできるAIモデルは、広く社会的な結果をもたらす可能性があり、異なる戦略の有効性と人間の類似性を判断するための基準を分析します。
関連論文リスト
- Personality testing of GPT-3: Limited temporal reliability, but
highlighted social desirability of GPT-3's personality instruments results [0.0]
本研究は、著名なAIボットの性格プロファイルの時間的信頼性を評価することを目的とする。
ダヴィンチ003は、特にコミュニオンの領域において、社会的に望ましい社会人格のプロファイルを示した。
論文 参考訳(メタデータ) (2023-06-07T10:14:17Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。
GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。
GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文 参考訳(メタデータ) (2023-04-13T09:39:30Z) - Humans in Humans Out: On GPT Converging Toward Common Sense in both
Success and Failure [0.0]
GPT-3, GPT-3.5, GPT-4は多量の人為的テキストで訓練された。
これらの例の59%に対して, GPT-3 は ETR 予測出力の証拠を示した。
GPT-3では18%, GPT-3.5では33%, GPT-4では34%であった。
論文 参考訳(メタデータ) (2023-03-30T10:32:18Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - Mind meets machine: Unravelling GPT-4's cognitive psychology [0.7302002320865727]
大規模言語モデル(LLM)は、人間レベルのタスクを実行する能力がますます高まっている強力なツールとして出現している。
本研究は,CommonsenseQA, SuperGLUE, MATH, HANSなどのデータセットにおけるGPT-4の性能評価に焦点を当てた。
GPT-4は,従来の最先端モデルと比較して認知心理学的タスクにおいて高い精度を示すことを示す。
論文 参考訳(メタデータ) (2023-03-20T20:28:26Z) - Consistency Analysis of ChatGPT [65.268245109828]
本稿では,ChatGPTとGPT-4の論理的一貫した行動に対する信頼性について検討する。
その結果,両モデルとも言語理解能力と推論能力が向上しているように見えるが,論理的に一貫した予測が得られないことが示唆された。
論文 参考訳(メタデータ) (2023-03-11T01:19:01Z) - How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language
Understanding Tasks [65.7949334650854]
GPT-3.5モデルは様々な自然言語処理(NLP)タスクで顕著な性能を示した。
しかし、オープン世界の様々な複雑さに対処する堅牢性や能力はまだ検討されていない。
GPT-3.5は、不安定性、迅速な感度、数値感度など、いくつかの具体的な堅牢性課題に直面している。
論文 参考訳(メタデータ) (2023-03-01T07:39:01Z) - ChatGPT: Jack of all trades, master of none [4.693597927153063]
OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。
25種類のNLPタスクにおけるChatGPTの機能について検討した。
われわれはChatGPTとGPT-4のプロンプト処理を自動化し,49k以上の応答を解析した。
論文 参考訳(メタデータ) (2023-02-21T15:20:37Z) - BiasTestGPT: Using ChatGPT for Social Bias Testing of Language Models [73.29106813131818]
テスト文は限られた手動テンプレートから生成されるか、高価なクラウドソーシングを必要とするため、現時点ではバイアステストは煩雑である。
ソーシャルグループと属性の任意のユーザ指定の組み合わせを考慮し、テスト文の制御可能な生成にChatGPTを使うことを提案する。
本稿では,HuggingFace上にホストされているオープンソースの総合的バイアステストフレームワーク(BiasTestGPT)について紹介する。
論文 参考訳(メタデータ) (2023-02-14T22:07:57Z) - Human or Machine? Turing Tests for Vision and Language [22.110556671410624]
我々は、現在のAIを人間を模倣する能力で体系的にベンチマークする。
実験では、769人の人的エージェント、24人の最先端AIエージェント、896人の人的裁判官、8人のAI裁判官がテストされた。
その結果、現在のAIは、性別、年齢、教育レベルによって人間の裁判官を偽装できるわけではないことが判明した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。