Fugu-MT 論文翻訳(概要): People cannot distinguish GPT-4 from a human in a Turing test

論文の概要: People cannot distinguish GPT-4 from a human in a Turing test

arxiv url: http://arxiv.org/abs/2405.08007v1
Date: Thu, 9 May 2024 04:14:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-15 18:12:57.015773
Title: People cannot distinguish GPT-4 from a human in a Turing test
Title（参考訳）: チューリングテストではGPT-4と人間を区別できない
Authors: Cameron R. Jones, Benjamin K. Bergen,
Abstract要約: GPT-4はヒトの54%と判断され、ELIZA(22%)を上回ったが、実際のヒト(67%)よりも遅れていた。結果は、マシンインテリジェンスに関する議論に影響を及ぼし、より緊急に、現在のAIシステムによる騙しが検出されない可能性があることを示唆している。
参考スコア（独自算出の注目度）: 0.913127392774573
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We evaluated 3 systems (ELIZA, GPT-3.5 and GPT-4) in a randomized, controlled, and preregistered Turing test. Human participants had a 5 minute conversation with either a human or an AI, and judged whether or not they thought their interlocutor was human. GPT-4 was judged to be a human 54% of the time, outperforming ELIZA (22%) but lagging behind actual humans (67%). The results provide the first robust empirical demonstration that any artificial system passes an interactive 2-player Turing test. The results have implications for debates around machine intelligence and, more urgently, suggest that deception by current AI systems may go undetected. Analysis of participants' strategies and reasoning suggests that stylistic and socio-emotional factors play a larger role in passing the Turing test than traditional notions of intelligence.
Abstract（参考訳）: ランダム化,制御,登録済みチューリングテストにおいて,ELIZA,GPT-3.5,GPT-4の3つのシステムについて検討した。人間の参加者は、人間かAIのどちらかと5分間の会話をし、インターロケーターが人間かどうかを判断した。 GPT-4はヒトの54%と判断され、ELIZA(22%)を上回ったが、実際のヒト(67%)よりも遅れていた。その結果、どんな人工システムでもインタラクティブな2-player Turingテストに合格するという、初めての堅牢な実証実験結果が得られた。この結果は、マシンインテリジェンスに関する議論に影響を及ぼし、さらに緊急に、現在のAIシステムによる騙しが検出されない可能性があることを示唆している。参加者の戦略と推論の分析は、スタイル的・社会的感情的要因が、伝統的な知性の概念よりもチューリングテストに合格する上で大きな役割を果たすことを示唆している。

関連論文リスト

AI Debate Aids Assessment of Controversial Claims [86.47978525513236]
AIの議論が、新型コロナウイルス(COVID-19)の事実性主張に反対する2つのAIシステムを議論することで、偏見のある裁判官を真実に導くことができるかどうかを調査する。人間の研究では、2つのAIアドバイザシステムが対立するエビデンスに基づく議論を提示し、判定精度と信頼性の校正を改善していることがわかった。我々のAIジャッジスタディでは、人間のようなペルソナを持つAIジャッジが、人間のジャッジ(70.1%)とデフォルトのAIジャッジ(69.8%)よりさらに高い精度(78.5%)を達成することが分かりました。
論文参考訳（メタデータ） (2025-06-02T19:01:53Z)
Large Language Models Pass the Turing Test [0.913127392774573]
独立集団を対象とした2つのチューリング試験において,ELIZA, GPT-4o, LLaMa-3.1-405B, GPT-4.5の4つのシステムについて検討した。結果は、あらゆる人工システムが標準の3要素チューリングテストに合格するという最初の実証的な証拠である。
論文参考訳（メタデータ） (2025-03-31T02:37:45Z)
AI-Driven Agents with Prompts Designed for High Agreeableness Increase the Likelihood of Being Mistaken for a Human in the Turing Test [0.0]
チューリング試験では, 適合性の異なるGPT剤を試験した。混乱率は50%を超え、AIエージェントは60%を超えた。この薬は、最も人間らしい特徴を示すものと認識された。
論文参考訳（メタデータ） (2024-11-20T23:12:49Z)
Metacognitive Monitoring: A Human Ability Beyond Generative Artificial Intelligence [0.0]
大規模言語モデル(LLM)は、人間の認知過程と顕著に一致している。本研究は,ChatGPTがヒトに類似したメタ認知モニタリング能力を持っているかを検討する。
論文参考訳（メタデータ） (2024-10-17T09:42:30Z)
Human Bias in the Face of AI: The Role of Human Judgement in AI Generated Text Evaluation [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文参考訳（メタデータ） (2024-09-29T04:31:45Z)
Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文参考訳（メタデータ） (2024-08-19T09:57:28Z)
GPT-4 is judged more human than humans in displaced and inverted Turing tests [0.7437224586066946]
毎日のAI検出は、オンライン会話における人とAIの差別化を必要とする。我々は、Turingテストの2つの修正版(反転と置換)を使って、人や大きな言語モデルがいかに差別化できるかを測定した。
論文参考訳（メタデータ） (2024-07-11T20:28:24Z)
How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO [55.25989137825992]
チューリングテストに触発された評価フレームワークECHOを紹介する。この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。基礎モデルとして GPT-3.5 と GPT-4 の3つのロールプレイング LLM をECHO を用いて評価した。
論文参考訳（メタデータ） (2024-04-22T08:00:51Z)
Does GPT-4 pass the Turing test? [0.913127392774573]
最高パフォーマンスのGPT-4プロンプトは49.7%のゲームで通過し、ELIZA(22%)とGPT-3.5(20%)を上回った。我々は、チューリングテストは、自然主義的なコミュニケーションと騙しの評価として、引き続き関係していると論じる。
論文参考訳（メタデータ） (2023-10-31T06:27:52Z)
Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (2023-03-22T16:51:28Z)
Can Machines Imitate Humans? Integrative Turing Tests for Vision and Language Demonstrate a Narrowing Gap [45.6806234490428]
3つの言語タスクと3つのビジョンタスクで人間を模倣する能力において、現在のAIをベンチマークします。実験では、549人の人間エージェントと26人のAIエージェントがデータセットの作成に使われ、1,126人の人間審査員と10人のAI審査員が参加した。結果として、現在のAIは、複雑な言語とビジョンの課題において人間を偽装できるものではないことが判明した。
論文参考訳（メタデータ） (2022-11-23T16:16:52Z)
Joint Inference of States, Robot Knowledge, and Human (False-)Beliefs [90.20235972293801]
本稿では,人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)の認知能力が,ロボットとの相互作用にどのように影響するかを理解するために,対象状態,ロボット知識,人間(時間的)の認知能力の表現にグラフィカルモデルを採用することを提案する。推論アルゴリズムは、複数のビューにまたがる全てのロボットから個別のpgを融合し、単一のビューから発生したエラーを克服するより効果的な推論能力を得る。
論文参考訳（メタデータ） (2020-04-25T23:02:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。