論文の概要: The Imitation Game According To Turing
- arxiv url: http://arxiv.org/abs/2501.17629v1
- Date: Wed, 29 Jan 2025 13:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:53.326753
- Title: The Imitation Game According To Turing
- Title(参考訳): チューリングによるシミュレーションゲーム
- Authors: Sharon Temtsin, Diane Proudfoot, David Kaber, Christoph Bartneck,
- Abstract要約: 近年の研究では、大規模言語モデル(LLM)が1950年代からAIの目標であるチューリングテストに合格できると主張している。
GPT-4-Turbo を用いた厳密なチューリングテストを行い,チューリングの指示に忠実に固執した。
LLMを正しく特定したのは1人以外で、今日の最も先進的なLLMの1つが厳格なチューリングテストに合格できないことを示している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The current cycle of hype and anxiety concerning the benefits and risks to human society of Artificial Intelligence is fuelled, not only by the increasing use of generative AI and other AI tools by the general public, but also by claims made on behalf of such technology by popularizers and scientists. In particular, recent studies have claimed that Large Language Models (LLMs) can pass the Turing Test-a goal for AI since the 1950s-and therefore can "think". Large-scale impacts on society have been predicted as a result. Upon detailed examination, however, none of these studies has faithfully applied Turing's original instructions. Consequently, we conducted a rigorous Turing Test with GPT-4-Turbo that adhered closely to Turing's instructions for a three-player imitation game. We followed established scientific standards where Turing's instructions were ambiguous or missing. For example, we performed a Computer-Imitates-Human Game (CIHG) without constraining the time duration and conducted a Man-Imitates-Woman Game (MIWG) as a benchmark. All but one participant correctly identified the LLM, showing that one of today's most advanced LLMs is unable to pass a rigorous Turing Test. We conclude that recent extravagant claims for such models are unsupported, and do not warrant either optimism or concern about the social impact of thinking machines.
- Abstract(参考訳): 人工知能の人間の社会に対する利益とリスクに関する現在の誇大宣伝と不安のサイクルは、生成的AIやその他のAIツールが一般大衆によって使われるようになったことだけでなく、大衆化や科学者によるそうした技術のために作られた主張によっても加速している。
特に最近の研究は、大規模言語モデル(LLM)が1950年代からチューリングテストの目標を達成できると主張している。
その結果、社会への大規模な影響が予測された。
しかし、詳しく調べると、これらの研究はチューリングの当初の指示を忠実に適用することはなかった。
その結果,GPT-4-Turboを用いた厳密なチューリングテストを行い,チューリングの指示に忠実に固執した。
私たちは、チューリングの指示が曖昧であったり、行方不明であったりする科学的基準を確立した。
例えば,コンピュータ・イミテート・ヒューマンゲーム(CIHG)を時間制限なく実施し,マン・イミテート・ウーマンゲーム(MIWG)をベンチマークとして実施した。
LLMを正しく特定したのは1人以外で、今日の最も先進的なLLMの1つが厳格なチューリングテストに合格できないことを示している。
このようなモデルに対する最近の過激な主張はサポートされておらず、思考機械の社会的影響に関する楽観主義や懸念は保証されていないと結論付けている。
関連論文リスト
- Formal Mathematical Reasoning: A New Frontier in AI [60.26950681543385]
我々は公式な数学的推論を提唱し、AI4Mathを次のレベルに進めるには不可欠であると主張している。
既存の進捗を要約し、オープンな課題について議論し、将来の成功を測るための重要なマイルストーンを想定します。
論文 参考訳(メタデータ) (2024-12-20T17:19:24Z) - AI-Driven Agents with Prompts Designed for High Agreeableness Increase the Likelihood of Being Mistaken for a Human in the Turing Test [0.0]
チューリング試験では, 適合性の異なるGPT剤を試験した。
混乱率は50%を超え、AIエージェントは60%を超えた。
この薬は、最も人間らしい特徴を示すものと認識された。
論文 参考訳(メタデータ) (2024-11-20T23:12:49Z) - Passed the Turing Test: Living in Turing Futures [0.0]
私たちは現在、マシンがそうでないもののために通過できる、多くの可能なチューリングの未来の1つに生きています。
しかし、チューリングが模擬試験に合格すると想像していた学習機械は、低エネルギーのヒト大脳皮質の自然発生に触発された機械であった。
論文 参考訳(メタデータ) (2024-09-11T22:56:30Z) - People cannot distinguish GPT-4 from a human in a Turing test [0.913127392774573]
GPT-4はヒトの54%と判断され、ELIZA(22%)を上回ったが、実際のヒト(67%)よりも遅れていた。
結果は、マシンインテリジェンスに関する議論に影響を及ぼし、より緊急に、現在のAIシステムによる騙しが検出されない可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-05-09T04:14:09Z) - How Well Can LLMs Echo Us? Evaluating AI Chatbots' Role-Play Ability with ECHO [55.25989137825992]
チューリングテストに触発された評価フレームワークECHOを紹介する。
この枠組みは、人間と機械が生成した反応を区別するために、対象個人の知名度に係わる。
基礎モデルとして GPT-3.5 と GPT-4 の3つのロールプレイング LLM をECHO を用いて評価した。
論文 参考訳(メタデータ) (2024-04-22T08:00:51Z) - Does GPT-4 pass the Turing test? [0.913127392774573]
最高パフォーマンスのGPT-4プロンプトは49.7%のゲームで通過し、ELIZA(22%)とGPT-3.5(20%)を上回った。
我々は、チューリングテストは、自然主義的なコミュニケーションと騙しの評価として、引き続き関係していると論じる。
論文 参考訳(メタデータ) (2023-10-31T06:27:52Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - Can Machines Imitate Humans? Integrative Turing Tests for Vision and Language Demonstrate a Narrowing Gap [45.6806234490428]
3つの言語タスクと3つのビジョンタスクで人間を模倣する能力において、現在のAIをベンチマークします。
実験では、549人の人間エージェントと26人のAIエージェントがデータセットの作成に使われ、1,126人の人間審査員と10人のAI審査員が参加した。
結果として、現在のAIは、複雑な言語とビジョンの課題において人間を偽装できるものではないことが判明した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。