論文の概要: A Test for Evaluating Performance in Human-Computer Systems
- arxiv url: http://arxiv.org/abs/2206.12390v2
- Date: Tue, 28 Jun 2022 19:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 09:28:13.731761
- Title: A Test for Evaluating Performance in Human-Computer Systems
- Title(参考訳): ヒューマンコンピュータシステムの性能評価のためのテスト
- Authors: Andres Campero, Michelle Vaccaro, Jaeyoon Song, Haoran Wen, Abdullah
Almaatouq, Thomas W. Malone
- Abstract要約: 本研究では, 効果の大きさの尺度として, 手段の比率を用いて, このようなテストを行う方法を示す。
GPT-3を用いて100人のプログラマがソフトウェアを生成する場合、より高い性能向上率が得られるかどうかを実験的に検討する。
- 参考スコア(独自算出の注目度): 4.281677042059531
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The Turing test for comparing computer performance to that of humans is well
known, but, surprisingly, there is no widely used test for comparing how much
better human-computer systems perform relative to humans alone, computers
alone, or other baselines. Here, we show how to perform such a test using the
ratio of means as a measure of effect size. Then we demonstrate the use of this
test in three ways. First, in an analysis of 79 recently published experimental
results, we find that, surprisingly, over half of the studies find a decrease
in performance, the mean and median ratios of performance improvement are both
approximately 1 (corresponding to no improvement at all), and the maximum ratio
is 1.36 (a 36% improvement). Second, we experimentally investigate whether a
higher performance improvement ratio is obtained when 100 human programmers
generate software using GPT-3, a massive, state-of-the-art AI system. In this
case, we find a speed improvement ratio of 1.27 (a 27% improvement). Finally,
we find that 50 human non-programmers using GPT-3 can perform the task about as
well as--and less expensively than--the human programmers. In this case,
neither the non-programmers nor the computer would have been able to perform
the task alone, so this is an example of a very strong form of human-computer
synergy.
- Abstract(参考訳): コンピュータのパフォーマンスを人間のパフォーマンスと比較するチューリングテストはよく知られているが、驚くべきことに、人間のコンピュータシステムの性能が、人間単独、コンピュータ単独、その他のベースラインと比べてどの程度優れているかを比較するために広く使われているテストはない。
ここでは,効果の大きさの尺度として,手段の比率を用いて,そのようなテストを行う方法を示す。
そして、このテストの使用を3つの方法で実演します。
第1に,最近公表された79の実験結果の分析では,半数以上の研究で性能低下がみられ,性能改善の平均値と中央値の比はともに約1(改善なし)で,最大比は1.36(36%改善)であることが判明した。
第2に,大規模かつ最先端のAIシステムであるGPT-3を用いて,100人のプログラマがソフトウェアを作成した場合,高い性能向上率が得られるかどうかを実験的に検討する。
この場合、速度改善率は1.27(改善率27%)である。
最後に, GPT-3を用いた50人の非プログラマが, 人間のプログラマに劣らず, そのタスクを遂行できることを見出した。
この場合、非プログラマもコンピュータも単独でタスクを実行できなかったため、これは人間とコンピュータのシナジーの非常に強力な形態の例である。
関連論文リスト
- Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Touchstone Benchmark: Are We on the Right Way for Evaluating AI Algorithms for Medical Segmentation? [90.30635552818875]
9種類の腹部臓器の大規模共同セグメント化ベンチマークであるTouchstoneを報告する。
このベンチマークは、世界中の76の病院から5,195回のCTスキャンと、11の病院から5,903回のCTスキャンに基づいています。
私たちは19のAIアルゴリズムの発明者14人を招待してアルゴリズムをトレーニングしましたが、私たちのチームは第三者として、3つのテストセットでこれらのアルゴリズムを独立して評価しました。
論文 参考訳(メタデータ) (2024-11-06T05:09:34Z) - AI-driven Java Performance Testing: Balancing Result Quality with Testing Time [0.40964539027092917]
我々は,実行時のウォームアップイテレーションを動的に停止するAIベースのフレームワークを提案し,研究する。
本フレームワークは,最先端および最先端手法によるウォームアップ推定の精度を大幅に向上させる。
我々の研究は、ウォームアップフェーズの終了を動的に推定するためにAIを統合することで、Javaのパフォーマンステストのコスト効率が向上することを示した。
論文 参考訳(メタデータ) (2024-08-09T14:41:32Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - SURE: A Visualized Failure Indexing Approach using Program Memory
Spectrum [2.4151044161696587]
本稿では,プログラムメモリスペクトルを用いたsualized failuRe indExingアプローチであるSUREを提案する。
まず、失敗したテストケースの実行中に、事前に設定されたブレークポイントで実行時のメモリ情報を収集する。
2つの障害のプロキシとして機能するPMSイメージの任意のペアは、トレーニングされたシームズ畳み込みニューラルネットワークに供給される。
論文 参考訳(メタデータ) (2023-10-19T02:04:35Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - Learning from Self-Sampled Correct and Partially-Correct Programs [96.66452896657991]
そこで本研究では,モデルが学習中にサンプリングを行い,自己サンプリングされた完全正当プログラムと部分正当プログラムの両方から学習することを提案する。
自己サンプリング型プログラムと部分修正型プログラムを併用することで,学習とサンプリングプロセスのガイドに役立てることができることを示す。
提案手法は,MLEを用いた単一の参照プログラムからの学習と比較して,パス@kの性能を3.1%から12.3%向上させる。
論文 参考訳(メタデータ) (2022-05-28T03:31:07Z) - Human vs. supervised machine learning: Who learns patterns faster? [0.0]
本研究は,訓練データに制限がある場合に,人間と機械の学習性能がどう違うかを示す。
我々は、44人の人間と3つの異なる機械学習アルゴリズムがラベル付きトレーニングデータのパターンを識別し、発見したパターンに従ってインスタンスをラベル付けする実験を設計した。
論文 参考訳(メタデータ) (2020-11-30T13:39:26Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z) - Leveraging Rationales to Improve Human Task Performance [15.785125079811902]
計算システムの性能が人間のユーザを上回ることを考えれば、人間のパフォーマンスを改善するために説明可能なAI能力を活用することができるだろうか?
本稿では,ユーティリティベースの計算手法の合理性を自動生成するRationale-Generating Algorithmを紹介する。
以上の結果から,本手法は人事性能の統計的改善につながる有理性を生み出すことが示唆された。
論文 参考訳(メタデータ) (2020-02-11T04:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。