論文の概要: Humanly Certifying Superhuman Classifiers
- arxiv url: http://arxiv.org/abs/2109.07867v1
- Date: Thu, 16 Sep 2021 11:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 21:42:48.561309
- Title: Humanly Certifying Superhuman Classifiers
- Title(参考訳): 超人分類器の人間認証
- Authors: Qiongkai Xu, Christian Walder, Chenchen Xu
- Abstract要約: 機械学習システムの性能を推定することは、人工知能研究における長年の課題である。
我々は,参照のための不完全な人間のアノテーションのみを用いて,オラクルと比較して精度を推定する理論を開発した。
この環境での超人的性能の検出と証明のための簡単なレシピを提供する。
- 参考スコア(独自算出の注目度): 8.736864280782592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating the performance of a machine learning system is a longstanding
challenge in artificial intelligence research. Today, this challenge is
especially relevant given the emergence of systems which appear to increasingly
outperform human beings. In some cases, this "superhuman" performance is
readily demonstrated; for example by defeating legendary human players in
traditional two player games. On the other hand, it can be challenging to
evaluate classification models that potentially surpass human performance.
Indeed, human annotations are often treated as a ground truth, which implicitly
assumes the superiority of the human over any models trained on human
annotations. In reality, human annotators can make mistakes and be subjective.
Evaluating the performance with respect to a genuine oracle may be more
objective and reliable, even when querying the oracle is expensive or
impossible. In this paper, we first raise the challenge of evaluating the
performance of both humans and models with respect to an oracle which is
unobserved. We develop a theory for estimating the accuracy compared to the
oracle, using only imperfect human annotations for reference. Our analysis
provides a simple recipe for detecting and certifying superhuman performance in
this setting, which we believe will assist in understanding the stage of
current research on classification. We validate the convergence of the bounds
and the assumptions of our theory on carefully designed toy experiments with
known oracles. Moreover, we demonstrate the utility of our theory by
meta-analyzing large-scale natural language processing tasks, for which an
oracle does not exist, and show that under our assumptions a number of models
from recent years are with high probability superhuman.
- Abstract(参考訳): 機械学習システムの性能を推定することは、人工知能研究における長年の課題である。
今日では、この課題が特に重要になっているのは、人類をますます上回りつつあるように見えるシステムの出現である。
例えば、伝統的な2人のプレイヤーゲームで伝説的な人間のプレイヤーを倒すことで、この「スーパーヒューマン」のパフォーマンスが容易に示される。
一方,人間性能を超える可能性のある分類モデルを評価することは困難である。
実際、人間のアノテーションはしばしば、人間のアノテーションで訓練されたモデルよりも人間の優位性を暗黙的に仮定する基礎的な真実として扱われる。
実際には、人間の注釈は間違いを犯し、主観的である。
真のオラクルに対するパフォーマンスの評価は、oracleをクエリする場合であっても、もっと客観的で信頼性が高いかもしれません。
本稿ではまず,未観測のオラクルに対して,人間とモデルの両方のパフォーマンスを評価するという課題を提起する。
我々は,参照のための不完全な人間のアノテーションのみを用いて,オラクルと比較して精度を推定する理論を開発した。
我々の分析は,この環境での超人的性能の検出と証明のための簡単なレシピを提供し,分類研究の段階を理解するのに役立つと信じている。
我々は、既知のオラクルを用いた慎重に設計された玩具実験において、境界の収束と理論の仮定を検証する。
さらに,オラクルが存在しない大規模自然言語処理タスクをメタ分析することで,我々の理論の有用性を実証し,近年のモデルが高確率超人であることを示す。
関連論文リスト
- Transcendence: Generative Models Can Outperform The Experts That Train Them [55.885802048647655]
生成モデルがデータを生成する専門家の能力を超える能力を達成するとき、超越現象を研究する。
我々は,自動回帰変換器をトレーニングして,ゲームスクリプティングからチェスを学習し,トレーニングされたモデルが,データセットのすべてのプレイヤーよりも優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2024-06-17T17:00:52Z) - The Generative AI Paradox: "What It Can Create, It May Not Understand" [81.89252713236746]
生成AIの最近の波は、潜在的に超人的な人工知能レベルに対する興奮と懸念を引き起こしている。
同時に、モデルは、専門家でない人でも期待できないような理解の基本的な誤りを示している。
一見超人的な能力と、ごく少数の人間が起こすエラーの持続性を、どうやって再現すればよいのか?
論文 参考訳(メタデータ) (2023-10-31T18:07:07Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - Improving the Efficiency of Human-in-the-Loop Systems: Adding Artificial
to Human Experts [0.7349727826230862]
未知のクラスからデータインスタンスを分類することを学ぶ人工専門家を作成するハイブリッドシステムを提案する。
提案手法は、画像分類に関するいくつかのベンチマークにおいて、従来のHITLシステムより優れている。
論文 参考訳(メタデータ) (2023-07-06T14:06:23Z) - Designing Closed-Loop Models for Task Allocation [36.04165658325371]
我々は、ブートストラップモデルトレーニングと人間とタスクの類似性に関する弱い事前情報を利用する。
このような弱い事前の使用は、人間の意思決定者が誤りを犯したりバイアスを受けたりしても、タスク割り当て精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-05-31T13:57:56Z) - Are Machine Rationales (Not) Useful to Humans? Measuring and Improving
Human Utility of Free-Text Rationales [62.02328001381361]
既存の合理性の人的効用は十分ではなく、人間の研究で見積もるのに費用がかかることを示す。
我々は、この発見を自動スコア GEN-U に翻訳し、人間の実用性を改善することによって、LM の合理性を生み出す能力を向上させるのに役立つ。
論文 参考訳(メタデータ) (2023-05-11T19:01:13Z) - Despite "super-human" performance, current LLMs are unsuited for
decisions about ethics and safety [0.0]
我々は、もう1つの「スーパーヒューマン」な結果につながる、シンプルな新しいプロンプト戦略を提供します。
平均的なパフォーマンスを判断能力に頼っていることは、非常に誤解を招く可能性がある。
また、いくつかの例では、モデルサイズによる逆スケーリングの兆候を観察し、モデルに"推論を説明する"よう促すことが、しばしば非倫理的行動の顕著な正当化につながることを示す。
論文 参考訳(メタデータ) (2022-12-13T00:29:45Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z) - Learning to Complement Humans [67.38348247794949]
オープンワールドにおけるAIに対するビジョンの高まりは、知覚、診断、推論タスクのために人間を補完できるシステムの開発に焦点を当てている。
我々は,人間-機械チームの複合的なパフォーマンスを最適化するために,エンド・ツー・エンドの学習戦略をどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2020-05-01T20:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。