Fugu-MT 論文翻訳(概要): A Test for Evaluating Performance in Human-Computer Systems

論文の概要: A Test for Evaluating Performance in Human-Computer Systems

arxiv url: http://arxiv.org/abs/2206.12390v1
Date: Fri, 24 Jun 2022 17:44:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-27 14:22:17.729176
Title: A Test for Evaluating Performance in Human-Computer Systems
Title（参考訳）: ヒューマンコンピュータシステムの性能評価のためのテスト
Authors: Andres Campero, Michelle Vaccaro, Jaeyoon Song, Haoran Wen, Abdullah Almaatouq, Thomas W. Malone
Abstract要約: 本研究では, 効果の大きさの尺度として, 手段の比率を用いて, このようなテストを行う方法を示す。 GPT-3を用いて100人のプログラマがソフトウェアを生成する場合、より高い性能向上率が得られるかどうかを実験的に検討する。
参考スコア（独自算出の注目度）: 4.281677042059531
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The Turing test for comparing computer performance to that of humans is well known, but, surprisingly, there is no widely used test for comparing how much better human-computer systems perform relative to humans alone, computers alone, or other baselines. Here, we show how to perform such a test using the ratio of means as a measure of effect size. Then we demonstrate the use of this test in three ways. First, in an analysis of 79 recently published experimental results, we find that, surprisingly, over half of the studies find a decrease in performance, the mean and median ratios of performance improvement are both approximately 1 (corresponding to no improvement at all), and the maximum ratio is 1.36 (a 36% improvement). Second, we experimentally investigate whether a higher performance improvement ratio is obtained when 100 human programmers generate software using GPT-3, a massive, state-of-the-art AI system. In this case, we find a speed improvement ratio of 1.27 (a 27% improvement). Finally, we find that 50 human non-programmers using GPT-3 can perform the task about as well as--and less expensively than--the human programmers. In this case, neither the non-programmers nor the computer would have been able to perform the task alone, so this is an example of a very strong form of human-computer synergy.
Abstract（参考訳）: コンピュータのパフォーマンスを人間のパフォーマンスと比較するチューリングテストはよく知られているが、驚くべきことに、人間のコンピュータシステムの性能が、人間単独、コンピュータ単独、その他のベースラインと比べてどの程度優れているかを比較するために広く使われているテストはない。ここでは,効果の大きさの尺度として,手段の比率を用いて,そのようなテストを行う方法を示す。そして、このテストの使用を3つの方法で実演します。第1に,最近公表された79の実験結果の分析では,半数以上の研究で性能低下がみられ,性能改善の平均値と中央値の比はともに約1(改善なし)で,最大比は1.36(36%改善)であることが判明した。第2に,大規模かつ最先端のAIシステムであるGPT-3を用いて,100人のプログラマがソフトウェアを作成した場合,高い性能向上率が得られるかどうかを実験的に検討する。この場合、速度改善率は1.27(改善率27%)である。最後に, GPT-3を用いた50人の非プログラマが, 人間のプログラマに劣らず, そのタスクを遂行できることを見出した。この場合、非プログラマもコンピュータも単独でタスクを実行できなかったため、これは人間とコンピュータのシナジーの非常に強力な形態の例である。

関連論文リスト

On the Mistaken Assumption of Interchangeable Deep Reinforcement Learning Implementations [53.0667196725616]
ディープ・強化学習(Deep Reinforcement Learning, DRL)とは、エージェントがニューラルネットワークを使って特定の環境でどのアクションをとるかを学ぶ人工知能のパラダイムである。 DRLは最近、ドライビングシミュレーター、3Dロボット制御、マルチプレイヤー・オンライン・バトル・アリーナ・ビデオゲームといった複雑な環境を解くことで注目を集めている。現在、Deep Q-Network (DQN) や Proximal Policy Optimization (PPO) アルゴリズムのような、これらのエージェントを訓練する最先端のアルゴリズムの実装が数多く存在する。
論文参考訳（メタデータ） (2025-03-28T16:25:06Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文参考訳（メタデータ） (2024-11-25T12:44:02Z)
Touchstone Benchmark: Are We on the Right Way for Evaluating AI Algorithms for Medical Segmentation? [90.30635552818875]
9種類の腹部臓器の大規模共同セグメント化ベンチマークであるTouchstoneを報告する。このベンチマークは、世界中の76の病院から5,195回のCTスキャンと、11の病院から5,903回のCTスキャンに基づいています。私たちは19のAIアルゴリズムの発明者14人を招待してアルゴリズムをトレーニングしましたが、私たちのチームは第三者として、3つのテストセットでこれらのアルゴリズムを独立して評価しました。
論文参考訳（メタデータ） (2024-11-06T05:09:34Z)
AI-driven Java Performance Testing: Balancing Result Quality with Testing Time [0.40964539027092917]
我々は,実行時のウォームアップイテレーションを動的に停止するAIベースのフレームワークを提案し,研究する。本フレームワークは,最先端および最先端手法によるウォームアップ推定の精度を大幅に向上させる。我々の研究は、ウォームアップフェーズの終了を動的に推定するためにAIを統合することで、Javaのパフォーマンステストのコスト効率が向上することを示した。
論文参考訳（メタデータ） (2024-08-09T14:41:32Z)
Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。 GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文参考訳（メタデータ） (2024-07-22T06:12:21Z)
SURE: A Visualized Failure Indexing Approach using Program Memory Spectrum [2.4151044161696587]
本稿では,プログラムメモリスペクトルを用いたsualized failuRe indExingアプローチであるSUREを提案する。まず、失敗したテストケースの実行中に、事前に設定されたブレークポイントで実行時のメモリ情報を収集する。 2つの障害のプロキシとして機能するPMSイメージの任意のペアは、トレーニングされたシームズ畳み込みニューラルネットワークに供給される。
論文参考訳（メタデータ） (2023-10-19T02:04:35Z)
Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。実験結果から,EIは性能と試料効率の両立を図った。
論文参考訳（メタデータ） (2022-10-18T05:19:26Z)
Learning from Self-Sampled Correct and Partially-Correct Programs [96.66452896657991]
そこで本研究では,モデルが学習中にサンプリングを行い,自己サンプリングされた完全正当プログラムと部分正当プログラムの両方から学習することを提案する。自己サンプリング型プログラムと部分修正型プログラムを併用することで,学習とサンプリングプロセスのガイドに役立てることができることを示す。提案手法は,MLEを用いた単一の参照プログラムからの学習と比較して,パス@kの性能を3.1%から12.3%向上させる。
論文参考訳（メタデータ） (2022-05-28T03:31:07Z)
Human vs. supervised machine learning: Who learns patterns faster? [0.0]
本研究は,訓練データに制限がある場合に,人間と機械の学習性能がどう違うかを示す。我々は、44人の人間と3つの異なる機械学習アルゴリズムがラベル付きトレーニングデータのパターンを識別し、発見したパターンに従ってインスタンスをラベル付けする実験を設計した。
論文参考訳（メタデータ） (2020-11-30T13:39:26Z)
Noisy Adaptive Group Testing using Bayesian Sequential Experimental Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文参考訳（メタデータ） (2020-04-26T23:41:33Z)
Leveraging Rationales to Improve Human Task Performance [15.785125079811902]
計算システムの性能が人間のユーザを上回ることを考えれば、人間のパフォーマンスを改善するために説明可能なAI能力を活用することができるだろうか? 本稿では,ユーティリティベースの計算手法の合理性を自動生成するRationale-Generating Algorithmを紹介する。以上の結果から,本手法は人事性能の統計的改善につながる有理性を生み出すことが示唆された。
論文参考訳（メタデータ） (2020-02-11T04:51:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。