論文の概要: Does GPT-4 Pass the Turing Test?
- arxiv url: http://arxiv.org/abs/2310.20216v1
- Date: Tue, 31 Oct 2023 06:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 16:25:17.682143
- Title: Does GPT-4 Pass the Turing Test?
- Title(参考訳): GPT-4はチューリングテストに合格するのか?
- Authors: Cameron Jones and Benjamin Bergen
- Abstract要約: 最も優れたGPT-4プロンプトは、ELIZA(27%)とGPT-3.5(14%)で設定されたベースラインを上回る41%のゲームでパスした。
我々は、チューリングテストは、自然主義的なコミュニケーションと騙しの評価として、引き続き関係していると論じる。
- 参考スコア(独自算出の注目度): 5.076419064097735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluated GPT-4 in a public online Turing Test. The best-performing GPT-4
prompt passed in 41% of games, outperforming baselines set by ELIZA (27%) and
GPT-3.5 (14%), but falling short of chance and the baseline set by human
participants (63%). Participants' decisions were based mainly on linguistic
style (35%) and socio-emotional traits (27%), supporting the idea that
intelligence is not sufficient to pass the Turing Test. Participants'
demographics, including education and familiarity with LLMs, did not predict
detection rate, suggesting that even those who understand systems deeply and
interact with them frequently may be susceptible to deception. Despite known
limitations as a test of intelligence, we argue that the Turing Test continues
to be relevant as an assessment of naturalistic communication and deception. AI
models with the ability to masquerade as humans could have widespread societal
consequences, and we analyse the effectiveness of different strategies and
criteria for judging humanlikeness.
- Abstract(参考訳): GPT-4をオンラインチューリングテストで評価した。
最も優れたGPT-4プロンプトは、ELIZA (27%) と GPT-3.5 (14%) で設定されたベースラインを上回る41%のゲームでパスしたが、確率は低く、人間によるベースラインは63%であった。
参加者の判断は主に言語的スタイル(35%)と社会的感情的特徴(27%)に基づいており、知性はチューリングテストに合格するには不十分であるという考えを支持した。
教育やllmへの親しみを含む参加者の人口動態は検出率を予測せず、システムの深く理解し、頻繁に相互作用する者でさえ偽装の影響を受けやすいことが示唆された。
知性テストとしての既知の限界にもかかわらず、チューリングテストは、自然主義的なコミュニケーションと偽りの評価として、引き続き関連があると主張する。
人間としてマスクレーディングできるAIモデルは、広く社会的な結果をもたらす可能性があり、異なる戦略の有効性と人間の類似性を判断するための基準を分析します。
関連論文リスト
- Human Decision-making is Susceptible to AI-driven Manipulation [71.20729309185124]
AIシステムは、ユーザの認知バイアスと感情的な脆弱性を利用して、有害な結果に向けてそれらを操縦する。
本研究では、経済的・感情的な意思決定の文脈におけるこのような操作に対する人間の感受性について検討した。
論文 参考訳(メタデータ) (2025-02-11T15:56:22Z) - The Imitation Game According To Turing [0.0]
近年の研究では、大規模言語モデル(LLM)が1950年代からAIの目標であるチューリングテストに合格できると主張している。
GPT-4-Turbo を用いた厳密なチューリングテストを行い,チューリングの指示に忠実に固執した。
LLMを正しく特定したのは1人以外で、今日の最も先進的なLLMの1つが厳格なチューリングテストに合格できないことを示している。
論文 参考訳(メタデータ) (2025-01-29T13:08:17Z) - Human Bias in the Face of AI: The Role of Human Judgement in AI Generated Text Evaluation [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。
ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文 参考訳(メタデータ) (2024-09-29T04:31:45Z) - GPT-4 is judged more human than humans in displaced and inverted Turing tests [0.7437224586066946]
毎日のAI検出は、オンライン会話における人とAIの差別化を必要とする。
我々は、Turingテストの2つの修正版(反転と置換)を使って、人や大きな言語モデルがいかに差別化できるかを測定した。
論文 参考訳(メタデータ) (2024-07-11T20:28:24Z) - People cannot distinguish GPT-4 from a human in a Turing test [0.913127392774573]
GPT-4はヒトの54%と判断され、ELIZA(22%)を上回ったが、実際のヒト(67%)よりも遅れていた。
結果は、マシンインテリジェンスに関する議論に影響を及ぼし、より緊急に、現在のAIシステムによる騙しが検出されない可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-05-09T04:14:09Z) - How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO [55.25989137825992]
チューリングテストに触発された評価フレームワークECHOを紹介する。
この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。
基礎モデルとして GPT-3.5 と GPT-4 の3つのロールプレイング LLM をECHO を用いて評価した。
論文 参考訳(メタデータ) (2024-04-22T08:00:51Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - ChatGPT: Jack of all trades, master of none [4.693597927153063]
OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。
25種類のNLPタスクにおけるChatGPTの機能について検討した。
われわれはChatGPTとGPT-4のプロンプト処理を自動化し,49k以上の応答を解析した。
論文 参考訳(メタデータ) (2023-02-21T15:20:37Z) - Can Machines Imitate Humans? Integrative Turing Tests for Vision and Language Demonstrate a Narrowing Gap [45.6806234490428]
3つの言語タスクと3つのビジョンタスクで人間を模倣する能力において、現在のAIをベンチマークします。
実験では、549人の人間エージェントと26人のAIエージェントがデータセットの作成に使われ、1,126人の人間審査員と10人のAI審査員が参加した。
結果として、現在のAIは、複雑な言語とビジョンの課題において人間を偽装できるものではないことが判明した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。