論文の概要: Human or Machine? Turing Tests for Vision and Language
- arxiv url: http://arxiv.org/abs/2211.13087v1
- Date: Wed, 23 Nov 2022 16:16:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 14:05:26.681796
- Title: Human or Machine? Turing Tests for Vision and Language
- Title(参考訳): 人間かマシンか?
視覚と言語のためのチューリングテスト
- Authors: Mengmi Zhang, Giorgia Dellaferrera, Ankur Sikarwar, Marcelo
Armendariz, Noga Mudrik, Prachi Agrawal, Spandan Madan, Andrei Barbu, Haochen
Yang, Tanishq Kumar, Meghna Sadwani, Stella Dellaferrera, Michele Pizzochero,
Hanspeter Pfister, Gabriel Kreiman
- Abstract要約: 我々は、現在のAIを人間を模倣する能力で体系的にベンチマークする。
実験では、769人の人的エージェント、24人の最先端AIエージェント、896人の人的裁判官、8人のAI裁判官がテストされた。
その結果、現在のAIは、性別、年齢、教育レベルによって人間の裁判官を偽装できるわけではないことが判明した。
- 参考スコア(独自算出の注目度): 22.110556671410624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI algorithms increasingly participate in daily activities that used to be
the sole province of humans, we are inevitably called upon to consider how much
machines are really like us. To address this question, we turn to the Turing
test and systematically benchmark current AIs in their abilities to imitate
humans. We establish a methodology to evaluate humans versus machines in
Turing-like tests and systematically evaluate a representative set of selected
domains, parameters, and variables. The experiments involved testing 769 human
agents, 24 state-of-the-art AI agents, 896 human judges, and 8 AI judges, in
21,570 Turing tests across 6 tasks encompassing vision and language modalities.
Surprisingly, the results reveal that current AIs are not far from being able
to impersonate human judges across different ages, genders, and educational
levels in complex visual and language challenges. In contrast, simple AI judges
outperform human judges in distinguishing human answers versus machine answers.
The curated large-scale Turing test datasets introduced here and their
evaluation metrics provide valuable insights to assess whether an agent is
human or not. The proposed formulation to benchmark human imitation ability in
current AIs paves a way for the research community to expand Turing tests to
other research areas and conditions. All of source code and data are publicly
available at https://tinyurl.com/8x8nha7p
- Abstract(参考訳): AIアルゴリズムは、かつて人類の唯一の州だった日々の活動にますます参加しているので、私たちは必然的に、機械が本当に私たちに似ているかを考える。
この問題に対処するため、チューリングテストに目を向け、現在のAIを人間を模倣する能力で体系的にベンチマークする。
本研究では,チューリング型テストにおける人間対機械の評価手法を確立し,選択された領域,パラメータ,変数の代表集合を体系的に評価する。
実験では、769人の人間エージェント、24人の最先端AIエージェント、896人の人間裁判官、8人のAI裁判官が、視覚と言語モダリティを含む6つのタスクにわたる21,570人のチューリングテストを行った。
驚くべきことに、現在のAIは、複雑な視覚的および言語的課題において、年齢、性別、教育レベルの異なる人間の裁判官を偽装できるわけではない。
対照的に、単純なAIは人間の答えと機械の答えを区別することで人間の判断を上回ります。
ここで紹介された大規模チューリングテストデータセットとその評価メトリクスは、エージェントが人間であるかどうかを評価するための貴重な洞察を提供する。
現在のaisにおける人間の模倣能力を評価するための定式化は、研究コミュニティがチューリングテストを他の研究領域や条件に拡大する方法である。
すべてのソースコードとデータはhttps://tinyurl.com/8x8nha7pで公開されている。
関連論文リスト
- Bending the Automation Bias Curve: A Study of Human and AI-based
Decision Making in National Security Contexts [0.0]
私たちは、AIに関する背景知識とAIに対する信頼の関係、自動化バイアスの確率に影響を与える他の要因との相互作用について理論を立てています。
我々は、AI産業のレベルが異なる9カ国の9000人の成人の代表例を対象に、事前登録されたタスク識別実験でテストを行った。
論文 参考訳(メタデータ) (2023-06-28T18:57:36Z) - Navigates Like Me: Understanding How People Evaluate Human-Like AI in
Video Games [36.96985093527702]
エージェントとベースラインAIエージェントが生成するナビゲーション行動の人間的類似性を比較したクラウドソースによる数百のアセスメントを収集する。
提案するエージェントはチューリングテストに合格するが,ベースラインエージェントは合格しない。
この研究は、ゴール指向のビデオゲームナビゲーションの文脈において、人間が人間的と考える特性に関する洞察を提供する。
論文 参考訳(メタデータ) (2023-03-02T18:59:04Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Human Heuristics for AI-Generated Language Are Flawed [8.465228064780744]
我々は,最も個人的かつ連続的な言語である動詞の自己表現が,AIによって生成されたかを検討した。
我々は,これらの単語がAI生成言語の人間の判断を予測可能で操作可能であることを実験的に実証した。
我々は、AIアクセントのようなソリューションについて議論し、AIによって生成された言語の誤認の可能性を減らす。
論文 参考訳(メタデータ) (2022-06-15T03:18:56Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - A User-Centred Framework for Explainable Artificial Intelligence in
Human-Robot Interaction [70.11080854486953]
本稿では,XAIのソーシャル・インタラクティブな側面に着目したユーザ中心型フレームワークを提案する。
このフレームワークは、エキスパートでないユーザのために考えられた対話型XAIソリューションのための構造を提供することを目的としている。
論文 参考訳(メタデータ) (2021-09-27T09:56:23Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - The MineRL BASALT Competition on Learning from Human Feedback [58.17897225617566]
MineRL BASALTコンペティションは、この重要な種類の技術の研究を促進することを目的としている。
Minecraftでは、ハードコードされた報酬関数を書くのが難しいと期待する4つのタスクのスイートを設計しています。
これら4つのタスクのそれぞれについて、人間のデモのデータセットを提供するとともに、模擬学習ベースラインを提供する。
論文 参考訳(メタデータ) (2021-07-05T12:18:17Z) - A Definition and a Test for Human-Level Artificial Intelligence [1.3140673348778702]
人間は、状態、行動、および対応する報酬列を経験しているかのように、言葉による記述でアクション値関数を更新することができる。
本稿では、各エージェントがどのように学習するかに応じて知能の分類を行い、HLAIの定義とテストを提案する。
論文 参考訳(メタデータ) (2020-11-18T17:10:02Z) - Human Evaluation of Interpretability: The Case of AI-Generated Music
Knowledge [19.508678969335882]
我々は、芸術と人文科学におけるAIが発見する知識/ルールを評価することに注力する。
本稿では,洗練された記号的/数値的対象として表現されたAI生成音楽理論/ルールの人間生成言語解釈を収集し,評価する実験手法を提案する。
論文 参考訳(メタデータ) (2020-04-15T06:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。