論文の概要: GPT-4 is judged more human than humans in displaced and inverted Turing tests
- arxiv url: http://arxiv.org/abs/2407.08853v1
- Date: Thu, 11 Jul 2024 20:28:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 01:36:13.455429
- Title: GPT-4 is judged more human than humans in displaced and inverted Turing tests
- Title(参考訳): GPT-4は転位および逆転したチューリング試験において人間よりも人間であると判断される
- Authors: Ishika Rathi, Sydney Taylor, Benjamin K. Bergen, Cameron R. Jones,
- Abstract要約: 毎日のAI検出は、オンライン会話における人とAIの差別化を必要とする。
我々は、Turingテストの2つの修正版(反転と置換)を使って、人や大きな言語モデルがいかに差別化できるかを測定した。
- 参考スコア(独自算出の注目度): 0.7437224586066946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Everyday AI detection requires differentiating between people and AI in informal, online conversations. In many cases, people will not interact directly with AI systems but instead read conversations between AI systems and other people. We measured how well people and large language models can discriminate using two modified versions of the Turing test: inverted and displaced. GPT-3.5, GPT-4, and displaced human adjudicators judged whether an agent was human or AI on the basis of a Turing test transcript. We found that both AI and displaced human judges were less accurate than interactive interrogators, with below chance accuracy overall. Moreover, all three judged the best-performing GPT-4 witness to be human more often than human witnesses. This suggests that both humans and current LLMs struggle to distinguish between the two when they are not actively interrogating the person, underscoring an urgent need for more accurate tools to detect AI in conversations.
- Abstract(参考訳): 毎日のAI検出には、非公式のオンライン会話で人とAIを区別する必要がある。
多くの場合、人々はAIシステムと直接対話するのではなく、AIシステムと他の人の間の会話を読み取る。
我々は、Turingテストの2つの修正版(反転と置換)を使って、人や大きな言語モデルがいかに差別化できるかを測定した。
GPT-3.5, GPT-4, and displaced human adjudicators は、チューリング試験の書き起こしに基づいて、エージェントが人間かAIであるかを判断した。
その結果、AIと転職した人間の審査員は、対話的な尋問者よりも精度が低く、全体的な精度は低いことがわかった。
さらに、3人とも、GPT-4の目撃者は人間の目撃者よりも人間の方が多いと判断した。
これは、人間と現在のLLMの両方が、会話中のAIを検出するより正確なツールが緊急に必要であるとして、積極的に質問をしていないときに、両者を区別するのに苦労していることを示している。
関連論文リスト
- Navigating AI Fallibility: Examining People's Reactions and Perceptions of AI after Encountering Personality Misrepresentations [7.256711790264119]
ハイパーパーソナライズされたAIシステムは、パーソナライズされたレコメンデーションを提供するために人々の特性をプロファイルする。
これらのシステムは、人々の最も個人的な特性を推測する際にエラーに免疫がない。
人格の誤表現に遭遇した後、人々がどのように反応し、AIを知覚するかを検討するための2つの研究を行った。
論文 参考訳(メタデータ) (2024-05-25T21:27:15Z) - People cannot distinguish GPT-4 from a human in a Turing test [0.913127392774573]
GPT-4はヒトの54%と判断され、ELIZA(22%)を上回ったが、実際のヒト(67%)よりも遅れていた。
結果は、マシンインテリジェンスに関する議論に影響を及ぼし、より緊急に、現在のAIシステムによる騙しが検出されない可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-05-09T04:14:09Z) - Does GPT-4 pass the Turing test? [0.913127392774573]
最高パフォーマンスのGPT-4プロンプトは49.7%のゲームで通過し、ELIZA(22%)とGPT-3.5(20%)を上回った。
我々は、チューリングテストは、自然主義的なコミュニケーションと騙しの評価として、引き続き関係していると論じる。
論文 参考訳(メタデータ) (2023-10-31T06:27:52Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - Human or Machine? Turing Tests for Vision and Language [22.110556671410624]
我々は、現在のAIを人間を模倣する能力で体系的にベンチマークする。
実験では、769人の人的エージェント、24人の最先端AIエージェント、896人の人的裁判官、8人のAI裁判官がテストされた。
その結果、現在のAIは、性別、年齢、教育レベルによって人間の裁判官を偽装できるわけではないことが判明した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Human Heuristics for AI-Generated Language Are Flawed [8.465228064780744]
我々は,最も個人的かつ連続的な言語である動詞の自己表現が,AIによって生成されたかを検討した。
我々は,これらの単語がAI生成言語の人間の判断を予測可能で操作可能であることを実験的に実証した。
我々は、AIアクセントのようなソリューションについて議論し、AIによって生成された言語の誤認の可能性を減らす。
論文 参考訳(メタデータ) (2022-06-15T03:18:56Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Is the Most Accurate AI the Best Teammate? Optimizing AI for Teamwork [54.309495231017344]
AIシステムは人間中心の方法でトレーニングされ、チームのパフォーマンスに直接最適化されるべきである、と私たちは主張する。
我々は,AIレコメンデーションを受け入れるか,あるいはタスク自体を解決するかを選択する,特定のタイプのAIチームを提案する。
実世界の高精度データセット上での線形モデルと非線形モデルによる実験は、AIが最も正確であることは、最高のチームパフォーマンスに繋がらないことを示している。
論文 参考訳(メタデータ) (2020-04-27T19:06:28Z) - Joint Inference of States, Robot Knowledge, and Human (False-)Beliefs [90.20235972293801]
本稿では,人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)の認知能力が,ロボットとの相互作用にどのように影響するかを理解するために,対象状態,ロボット知識,人間(時間的)の認知能力の表現にグラフィカルモデルを採用することを提案する。
推論アルゴリズムは、複数のビューにまたがる全てのロボットから個別のpgを融合し、単一のビューから発生したエラーを克服するより効果的な推論能力を得る。
論文 参考訳(メタデータ) (2020-04-25T23:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。