論文の概要: A Test for Evaluating Performance in Human-Computer Systems
- arxiv url: http://arxiv.org/abs/2206.12390v1
- Date: Fri, 24 Jun 2022 17:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 14:22:17.729176
- Title: A Test for Evaluating Performance in Human-Computer Systems
- Title(参考訳): ヒューマンコンピュータシステムの性能評価のためのテスト
- Authors: Andres Campero, Michelle Vaccaro, Jaeyoon Song, Haoran Wen, Abdullah
Almaatouq, Thomas W. Malone
- Abstract要約: 本研究では, 効果の大きさの尺度として, 手段の比率を用いて, このようなテストを行う方法を示す。
GPT-3を用いて100人のプログラマがソフトウェアを生成する場合、より高い性能向上率が得られるかどうかを実験的に検討する。
- 参考スコア(独自算出の注目度): 4.281677042059531
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Turing test for comparing computer performance to that of humans is well
known, but, surprisingly, there is no widely used test for comparing how much
better human-computer systems perform relative to humans alone, computers
alone, or other baselines. Here, we show how to perform such a test using the
ratio of means as a measure of effect size. Then we demonstrate the use of this
test in three ways. First, in an analysis of 79 recently published experimental
results, we find that, surprisingly, over half of the studies find a decrease
in performance, the mean and median ratios of performance improvement are both
approximately 1 (corresponding to no improvement at all), and the maximum ratio
is 1.36 (a 36% improvement). Second, we experimentally investigate whether a
higher performance improvement ratio is obtained when 100 human programmers
generate software using GPT-3, a massive, state-of-the-art AI system. In this
case, we find a speed improvement ratio of 1.27 (a 27% improvement). Finally,
we find that 50 human non-programmers using GPT-3 can perform the task about as
well as--and less expensively than--the human programmers. In this case,
neither the non-programmers nor the computer would have been able to perform
the task alone, so this is an example of a very strong form of human-computer
synergy.
- Abstract(参考訳): コンピュータのパフォーマンスを人間のパフォーマンスと比較するチューリングテストはよく知られているが、驚くべきことに、人間のコンピュータシステムの性能が、人間単独、コンピュータ単独、その他のベースラインと比べてどの程度優れているかを比較するために広く使われているテストはない。
ここでは,効果の大きさの尺度として,手段の比率を用いて,そのようなテストを行う方法を示す。
そして、このテストの使用を3つの方法で実演します。
第1に,最近公表された79の実験結果の分析では,半数以上の研究で性能低下がみられ,性能改善の平均値と中央値の比はともに約1(改善なし)で,最大比は1.36(36%改善)であることが判明した。
第2に,大規模かつ最先端のAIシステムであるGPT-3を用いて,100人のプログラマがソフトウェアを作成した場合,高い性能向上率が得られるかどうかを実験的に検討する。
この場合、速度改善率は1.27(改善率27%)である。
最後に, GPT-3を用いた50人の非プログラマが, 人間のプログラマに劣らず, そのタスクを遂行できることを見出した。
この場合、非プログラマもコンピュータも単独でタスクを実行できなかったため、これは人間とコンピュータのシナジーの非常に強力な形態の例である。
関連論文リスト
- SURE: A Visualized Failure Indexing Approach using Program Memory
Spectrum [2.4151044161696587]
本稿では,プログラムメモリスペクトルを用いたsualized failuRe indExingアプローチであるSUREを提案する。
まず、失敗したテストケースの実行中に、事前に設定されたブレークポイントで実行時のメモリ情報を収集する。
2つの障害のプロキシとして機能するPMSイメージの任意のペアは、トレーニングされたシームズ畳み込みニューラルネットワークに供給される。
論文 参考訳(メタデータ) (2023-10-19T02:04:35Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - RMBench: Benchmarking Deep Reinforcement Learning for Robotic
Manipulator Control [47.61691569074207]
強化学習は、高次元の感覚入力から実際の複雑なタスクを解決するために応用される。
生の知覚信号表現における深層学習の最近の進歩
ロボット操作のための最初のベンチマークであるRMBenchを紹介する。
論文 参考訳(メタデータ) (2022-10-20T13:34:26Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - Learning from Self-Sampled Correct and Partially-Correct Programs [96.66452896657991]
そこで本研究では,モデルが学習中にサンプリングを行い,自己サンプリングされた完全正当プログラムと部分正当プログラムの両方から学習することを提案する。
自己サンプリング型プログラムと部分修正型プログラムを併用することで,学習とサンプリングプロセスのガイドに役立てることができることを示す。
提案手法は,MLEを用いた単一の参照プログラムからの学習と比較して,パス@kの性能を3.1%から12.3%向上させる。
論文 参考訳(メタデータ) (2022-05-28T03:31:07Z) - Does Redundancy in AI Perception Systems Help to Test for Super-Human
Automated Driving Performance? [6.445605125467575]
この研究は、実際のシステムレベルでの直接的な統計的証拠を提供することはほとんど不可能である、と再考する。
したがって、一般的に使われている戦略は、十分なサブシステムの性能の証明とともに冗長性を使うことである。
論文 参考訳(メタデータ) (2021-12-09T08:40:31Z) - Searching for More Efficient Dynamic Programs [61.79535031840558]
本稿では,プログラム変換の集合,変換プログラムの効率を評価するための単純な指標,およびこの指標を改善するための探索手順について述べる。
実際に、自動検索は初期プログラムの大幅な改善を見出すことができることを示す。
論文 参考訳(メタデータ) (2021-09-14T20:52:55Z) - Human vs. supervised machine learning: Who learns patterns faster? [0.0]
本研究は,訓練データに制限がある場合に,人間と機械の学習性能がどう違うかを示す。
我々は、44人の人間と3つの異なる機械学習アルゴリズムがラベル付きトレーニングデータのパターンを識別し、発見したパターンに従ってインスタンスをラベル付けする実験を設計した。
論文 参考訳(メタデータ) (2020-11-30T13:39:26Z) - Time Efficiency in Optimization with a Bayesian-Evolutionary Algorithm [13.66850118870667]
すべての生成とテストの検索アルゴリズムが等しく作られているわけではないことを示す。
本稿では,ベイズ最適化と進化的アルゴリズムを組み合わせた新しいアルゴリズムBEAを提案する。
その結果、BEA は BO と EA の両方を時間効率で上回り、最終的には多くの局所最適値を持つよく知られたベンチマーク対象関数の性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-05-04T15:29:22Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z) - Leveraging Rationales to Improve Human Task Performance [15.785125079811902]
計算システムの性能が人間のユーザを上回ることを考えれば、人間のパフォーマンスを改善するために説明可能なAI能力を活用することができるだろうか?
本稿では,ユーティリティベースの計算手法の合理性を自動生成するRationale-Generating Algorithmを紹介する。
以上の結果から,本手法は人事性能の統計的改善につながる有理性を生み出すことが示唆された。
論文 参考訳(メタデータ) (2020-02-11T04:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。