Fugu-MT 論文翻訳(概要): Does GPT-4 Pass the Turing Test?

論文の概要: Does GPT-4 Pass the Turing Test?

arxiv url: http://arxiv.org/abs/2310.20216v1
Date: Tue, 31 Oct 2023 06:27:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 16:25:17.682143
Title: Does GPT-4 Pass the Turing Test?
Title（参考訳）: GPT-4はチューリングテストに合格するのか?
Authors: Cameron Jones and Benjamin Bergen
Abstract要約: 最も優れたGPT-4プロンプトは、ELIZA(27%)とGPT-3.5(14%)で設定されたベースラインを上回る41%のゲームでパスした。我々は、チューリングテストは、自然主義的なコミュニケーションと騙しの評価として、引き続き関係していると論じる。
参考スコア（独自算出の注目度）: 5.076419064097735
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We evaluated GPT-4 in a public online Turing Test. The best-performing GPT-4 prompt passed in 41% of games, outperforming baselines set by ELIZA (27%) and GPT-3.5 (14%), but falling short of chance and the baseline set by human participants (63%). Participants' decisions were based mainly on linguistic style (35%) and socio-emotional traits (27%), supporting the idea that intelligence is not sufficient to pass the Turing Test. Participants' demographics, including education and familiarity with LLMs, did not predict detection rate, suggesting that even those who understand systems deeply and interact with them frequently may be susceptible to deception. Despite known limitations as a test of intelligence, we argue that the Turing Test continues to be relevant as an assessment of naturalistic communication and deception. AI models with the ability to masquerade as humans could have widespread societal consequences, and we analyse the effectiveness of different strategies and criteria for judging humanlikeness.
Abstract（参考訳）: GPT-4をオンラインチューリングテストで評価した。最も優れたGPT-4プロンプトは、ELIZA (27%) と GPT-3.5 (14%) で設定されたベースラインを上回る41%のゲームでパスしたが、確率は低く、人間によるベースラインは63%であった。参加者の判断は主に言語的スタイル(35%)と社会的感情的特徴(27%)に基づいており、知性はチューリングテストに合格するには不十分であるという考えを支持した。教育やllmへの親しみを含む参加者の人口動態は検出率を予測せず、システムの深く理解し、頻繁に相互作用する者でさえ偽装の影響を受けやすいことが示唆された。知性テストとしての既知の限界にもかかわらず、チューリングテストは、自然主義的なコミュニケーションと偽りの評価として、引き続き関連があると主張する。人間としてマスクレーディングできるAIモデルは、広く社会的な結果をもたらす可能性があり、異なる戦略の有効性と人間の類似性を判断するための基準を分析します。

関連論文リスト

A Definition of AGI [208.25193480759026]
人工知能の具体的な定義の欠如は、今日の専門的なAIと人間レベルの認知のギャップを曖昧にしている。そこで本研究では,AGIを認知的多目的性と熟達度に適合するものとして,これに対応するための定量的枠組みを提案する。
論文参考訳（メタデータ） (2025-10-21T01:28:35Z)
AI Debate Aids Assessment of Controversial Claims [86.47978525513236]
AIの議論が、新型コロナウイルス(COVID-19)の事実性主張に反対する2つのAIシステムを議論することで、偏見のある裁判官を真実に導くことができるかどうかを調査する。人間の研究では、2つのAIアドバイザシステムが対立するエビデンスに基づく議論を提示し、判定精度と信頼性の校正を改善していることがわかった。我々のAIジャッジスタディでは、人間のようなペルソナを持つAIジャッジが、人間のジャッジ(70.1%)とデフォルトのAIジャッジ(69.8%)よりさらに高い精度(78.5%)を達成することが分かりました。
論文参考訳（メタデータ） (2025-06-02T19:01:53Z)
Large Language Models Pass the Turing Test [0.913127392774573]
独立集団を対象とした2つのチューリング試験において,ELIZA, GPT-4o, LLaMa-3.1-405B, GPT-4.5の4つのシステムについて検討した。結果は、あらゆる人工システムが標準の3要素チューリングテストに合格するという最初の実証的な証拠である。
論文参考訳（メタデータ） (2025-03-31T02:37:45Z)
Human Decision-making is Susceptible to AI-driven Manipulation [87.24007555151452]
AIシステムは、ユーザの認知バイアスと感情的な脆弱性を利用して、有害な結果に向けてそれらを操縦する。本研究では、経済的・感情的な意思決定の文脈におけるこのような操作に対する人間の感受性について検討した。
論文参考訳（メタデータ） (2025-02-11T15:56:22Z)
The Imitation Game According To Turing [0.0]
近年の研究では、大規模言語モデル(LLM)が1950年代からAIの目標であるチューリングテストに合格できると主張している。 GPT-4-Turbo を用いた厳密なチューリングテストを行い,チューリングの指示に忠実に固執した。 LLMを正しく特定したのは1人以外で、今日の最も先進的なLLMの1つが厳格なチューリングテストに合格できないことを示している。
論文参考訳（メタデータ） (2025-01-29T13:08:17Z)
AI-Driven Agents with Prompts Designed for High Agreeableness Increase the Likelihood of Being Mistaken for a Human in the Turing Test [0.0]
チューリング試験では, 適合性の異なるGPT剤を試験した。混乱率は50%を超え、AIエージェントは60%を超えた。この薬は、最も人間らしい特徴を示すものと認識された。
論文参考訳（メタデータ） (2024-11-20T23:12:49Z)
Human Bias in the Face of AI: The Role of Human Judgement in AI Generated Text Evaluation [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文参考訳（メタデータ） (2024-09-29T04:31:45Z)
Self-Directed Turing Test for Large Language Models [56.64615470513102]
チューリングテストは、自然言語の会話においてAIが人間のような振る舞いを示すことができるかどうかを調べる。従来のチューリングテストでは、各参加者が1回に1つのメッセージだけを送信する厳格な対話形式を採用している。本稿では,バーストダイアログ形式を用いた自己指示チューリングテストを提案する。
論文参考訳（メタデータ） (2024-08-19T09:57:28Z)
GPT-4 is judged more human than humans in displaced and inverted Turing tests [0.7437224586066946]
毎日のAI検出は、オンライン会話における人とAIの差別化を必要とする。我々は、Turingテストの2つの修正版(反転と置換)を使って、人や大きな言語モデルがいかに差別化できるかを測定した。
論文参考訳（メタデータ） (2024-07-11T20:28:24Z)
People cannot distinguish GPT-4 from a human in a Turing test [0.913127392774573]
GPT-4はヒトの54%と判断され、ELIZA(22%)を上回ったが、実際のヒト(67%)よりも遅れていた。結果は、マシンインテリジェンスに関する議論に影響を及ぼし、より緊急に、現在のAIシステムによる騙しが検出されない可能性があることを示唆している。
論文参考訳（メタデータ） (2024-05-09T04:14:09Z)
How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO [55.25989137825992]
チューリングテストに触発された評価フレームワークECHOを紹介する。この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。基礎モデルとして GPT-3.5 と GPT-4 の3つのロールプレイング LLM をECHO を用いて評価した。
論文参考訳（メタデータ） (2024-04-22T08:00:51Z)
Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文参考訳（メタデータ） (2023-03-22T16:51:28Z)
ChatGPT: Jack of all trades, master of none [4.693597927153063]
OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。 25種類のNLPタスクにおけるChatGPTの機能について検討した。われわれはChatGPTとGPT-4のプロンプト処理を自動化し,49k以上の応答を解析した。
論文参考訳（メタデータ） (2023-02-21T15:20:37Z)
Can Machines Imitate Humans? Integrative Turing Tests for Vision and Language Demonstrate a Narrowing Gap [45.6806234490428]
3つの言語タスクと3つのビジョンタスクで人間を模倣する能力において、現在のAIをベンチマークします。実験では、549人の人間エージェントと26人のAIエージェントがデータセットの作成に使われ、1,126人の人間審査員と10人のAI審査員が参加した。結果として、現在のAIは、複雑な言語とビジョンの課題において人間を偽装できるものではないことが判明した。
論文参考訳（メタデータ） (2022-11-23T16:16:52Z)
CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文参考訳（メタデータ） (2022-01-14T06:49:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。