Fugu-MT 論文翻訳(概要): Can Machines Imitate Humans? Integrative Turing Tests for Vision and Language Demonstrate a Narrowing Gap

論文の概要: Can Machines Imitate Humans? Integrative Turing Tests for Vision and Language Demonstrate a Narrowing Gap

arxiv url: http://arxiv.org/abs/2211.13087v2
Date: Sat, 17 Aug 2024 18:37:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 06:43:37.235585
Title: Can Machines Imitate Humans? Integrative Turing Tests for Vision and Language Demonstrate a Narrowing Gap
Title（参考訳）: 機械は人間を遠ざけるか? 視覚と言語のための統合的チューリングテストは狭義のギャップを実証する
Authors: Mengmi Zhang, Giorgia Dellaferrera, Ankur Sikarwar, Caishun Chen, Marcelo Armendariz, Noga Mudrik, Prachi Agrawal, Spandan Madan, Mranmay Shetty, Andrei Barbu, Haochen Yang, Tanishq Kumar, Shui'Er Han, Aman Raj Singh, Meghna Sadwani, Stella Dellaferrera, Michele Pizzochero, Brandon Tang, Yew Soon Ong, Hanspeter Pfister, Gabriel Kreiman,
Abstract要約: 3つの言語タスクと3つのビジョンタスクで人間を模倣する能力において、現在のAIをベンチマークします。実験では、549人の人間エージェントと26人のAIエージェントがデータセットの作成に使われ、1,126人の人間審査員と10人のAI審査員が参加した。結果として、現在のAIは、複雑な言語とビジョンの課題において人間を偽装できるものではないことが判明した。
参考スコア（独自算出の注目度）: 45.6806234490428
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As AI algorithms increasingly participate in daily activities, it becomes critical to ascertain whether the agents we interact with are human or not. To address this question, we turn to the Turing test and systematically benchmark current AIs in their abilities to imitate humans in three language tasks (Image captioning, Word association, and Conversation) and three vision tasks (Object detection, Color estimation, and Attention prediction). The experiments involved 549 human agents plus 26 AI agents for dataset creation, and 1,126 human judges plus 10 AI judges, in 25,650 Turing-like tests. The results reveal that current AIs are not far from being able to impersonate humans in complex language and vision challenges. While human judges were often deceived, simple AI judges outperformed human judges in distinguishing human answers from AI answers. The results of imitation tests are only minimally correlated with standard performance metrics in AI. Thus, evaluating whether a machine can pass as a human constitutes an important independent test to evaluate AI algorithms. The curated, large-scale, Turing datasets introduced here and their evaluation metrics provide new benchmarks and insights to assess whether an agent is human or not and emphasize the relevance of rigorous, systematic, and quantitative imitation tests in these and other AI domains.
Abstract（参考訳）: AIアルゴリズムが日々の活動にますます参加するにつれて、私たちが対話するエージェントが人間であるかどうかを確認することが重要になる。この問題に対処するために、チューリングテストに目を向け、現在のAIを3つの言語タスク(画像キャプション、ワードアソシエーション、会話)と3つの視覚タスク(物体検出、色推定、注意予測)で模倣する能力で体系的にベンチマークする。実験では、549人の人間エージェントと26人のAIエージェントがデータセットの作成に使われ、1,126人の人間審査員と10人のAI審査員が、チューリング風のテストで25,650人が参加した。その結果、現在のAIは、複雑な言語やビジョンの課題で人間を偽装できるわけではないことが判明した。人間の裁判官はしばしば騙されたが、単純なAIの裁判官は人間の答えとAIの答えを区別することで人間の裁判官より優れていた。模倣テストの結果は、AIの標準的なパフォーマンス指標と最小限の相関しか持たない。したがって、機械が人間として通過できるかどうかを評価することは、AIアルゴリズムを評価するための重要な独立テストを構成する。ここで導入されたキュレートされた大規模チューリングデータセットとその評価指標は、エージェントが人間であるかどうかを評価するための新しいベンチマークと洞察を提供し、これらおよび他のAIドメインにおける厳密で体系的で定量的な模倣テストの関連性を強調する。

関連論文リスト

Human-AI Complementarity: A Goal for Amplified Oversight [2.7005766101211663]
本稿では,人間の監視の質を向上させるためにAIを活用する方法について検討する。 AIレーティングと人間のレーティングをAIレーダの信頼性に基づいて組み合わせた方が、どちらも頼りにしているよりも優れていることが分かりました。
論文参考訳（メタデータ） (2025-10-30T14:11:52Z)
Stop Evaluating AI with Human Tests, Develop Principled, AI-specific Tests instead [2.809966405091883]
我々は、ベンチマークのパフォーマンスを人間のような特性の測定として解釈することは、十分な理論的、実証的な正当化を欠いていると論じる。私たちは、AIシステムに適した、原則化されたAI固有の評価フレームワークの開発を呼びかけます。
論文参考訳（メタデータ） (2025-07-30T18:14:35Z)
On Benchmarking Human-Like Intelligence in Machines [77.55118048492021]
現在のAI評価パラダイムは、人間のような認知能力を評価するには不十分である、と我々は主張する。人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。
論文参考訳（メタデータ） (2025-02-27T20:21:36Z)
Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing [55.2480439325792]
誤分類は、偽の盗作行為の告発や、オンラインコンテンツにおけるAIの普及に関する誤解を招く可能性がある。我々は、AI-Polished-Text Evaluationデータセットを用いて、最先端の11のAIテキスト検出を体系的に評価した。我々の発見によると、検出器は、最小限に磨き上げられたテキストをAI生成と誤分類し、AIの関与度を区別し、古いモデルと小さなモデルに偏見を示す。
論文参考訳（メタデータ） (2025-02-21T18:45:37Z)
Aligning Generalisation Between Humans and Machines [74.120848518198]
AI技術は、科学的発見と意思決定において人間を支援することができるが、民主主義と個人を妨害することもある。 AIの責任ある使用と人間-AIチームへの参加は、AIアライメントの必要性をますます示している。これらの相互作用の重要かつしばしば見落とされがちな側面は、人間と機械が一般化する異なる方法である。
論文参考訳（メタデータ） (2024-11-23T18:36:07Z)
AI-Driven Agents with Prompts Designed for High Agreeableness Increase the Likelihood of Being Mistaken for a Human in the Turing Test [0.0]
チューリング試験では, 適合性の異なるGPT剤を試験した。混乱率は50%を超え、AIエージェントは60%を超えた。この薬は、最も人間らしい特徴を示すものと認識された。
論文参考訳（メタデータ） (2024-11-20T23:12:49Z)
Do great minds think alike? Investigating Human-AI Complementarity in Question Answering with CAIMIRA [43.116608441891096]
人間は知識に基づく帰納的、概念的推論においてAIシステムより優れています。 GPT-4やLLaMAのような最先端のLLMは、ターゲット情報検索において優れた性能を示す。
論文参考訳（メタデータ） (2024-10-09T03:53:26Z)
Human Bias in the Face of AI: The Role of Human Judgement in AI Generated Text Evaluation [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文参考訳（メタデータ） (2024-09-29T04:31:45Z)
Rolling in the deep of cognitive and AI biases [1.556153237434314]
我々は、AIが設計、開発、デプロイされる状況とは切り離せない社会技術システムとして理解する必要があると論じる。我々は、人間の認知バイアスがAIフェアネスの概観の中核となる急進的な新しい方法論に従うことで、この問題に対処する。我々は、人間にAIバイアスを正当化する新しいマッピングを導入し、関連する公正度と相互依存を検出する。
論文参考訳（メタデータ） (2024-07-30T21:34:04Z)
Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities [48.922660354417204]
人間の関与なしにアシスタントのAPIコール能力を評価するために,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。この枠組みでは,人間と機械の相互作用において,真の人間の会話パターンを忠実に反映するように努力する。
論文参考訳（メタデータ） (2024-03-17T07:34:12Z)
Improving Human-AI Collaboration With Descriptions of AI Behavior [14.904401331154062]
人々はAIシステムを使って意思決定を改善するが、しばしばAIの予測を過度に、あるいは過度に予測し、手伝わなかったよりも悪いパフォーマンスをする。人々がAIアシスタントを適切に頼りにするために、行動記述を示すことを提案する。
論文参考訳（メタデータ） (2023-01-06T00:33:08Z)
The Role of AI in Drug Discovery: Challenges, Opportunities, and Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文参考訳（メタデータ） (2022-12-08T23:23:39Z)
Human Heuristics for AI-Generated Language Are Flawed [8.465228064780744]
我々は,最も個人的かつ連続的な言語である動詞の自己表現が,AIによって生成されたかを検討した。我々は,これらの単語がAI生成言語の人間の判断を予測可能で操作可能であることを実験的に実証した。我々は、AIアクセントのようなソリューションについて議論し、AIによって生成された言語の誤認の可能性を減らす。
論文参考訳（メタデータ） (2022-06-15T03:18:56Z)
Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文参考訳（メタデータ） (2022-01-26T18:53:09Z)
Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文参考訳（メタデータ） (2021-07-12T14:21:46Z)
Human Evaluation of Interpretability: The Case of AI-Generated Music Knowledge [19.508678969335882]
我々は、芸術と人文科学におけるAIが発見する知識/ルールを評価することに注力する。本稿では,洗練された記号的/数値的対象として表現されたAI生成音楽理論/ルールの人間生成言語解釈を収集し,評価する実験手法を提案する。
論文参考訳（メタデータ） (2020-04-15T06:03:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。