論文の概要: H-ARC: A Robust Estimate of Human Performance on the Abstraction and Reasoning Corpus Benchmark
- arxiv url: http://arxiv.org/abs/2409.01374v1
- Date: Mon, 2 Sep 2024 17:11:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 04:14:12.803165
- Title: H-ARC: A Robust Estimate of Human Performance on the Abstraction and Reasoning Corpus Benchmark
- Title(参考訳): H-ARC: 抽象と推論コーパスベンチマークにおける人的パフォーマンスのロバストな評価
- Authors: Solim LeGris, Wai Keen Vong, Brenden M. Lake, Todd M. Gureckis,
- Abstract要約: 2019年以降、既存の人工知能手法による課題について、限られた進展が観察されている。
これまでの研究は、ARCベンチマークで人間がいかにうまくタスクを解くことができるかを調査した。
我々は,400のトレーニングと400のタスクの完全なセットに基づいて1729人の人間を評価することによって,より堅牢な人的パフォーマンスの推定値を得る。
- 参考スコア(独自算出の注目度): 7.840781070208872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Abstraction and Reasoning Corpus (ARC) is a visual program synthesis benchmark designed to test challenging out-of-distribution generalization in humans and machines. Since 2019, limited progress has been observed on the challenge using existing artificial intelligence methods. Comparing human and machine performance is important for the validity of the benchmark. While previous work explored how well humans can solve tasks from the ARC benchmark, they either did so using only a subset of tasks from the original dataset, or from variants of ARC, and therefore only provided a tentative estimate of human performance. In this work, we obtain a more robust estimate of human performance by evaluating 1729 humans on the full set of 400 training and 400 evaluation tasks from the original ARC problem set. We estimate that average human performance lies between 73.3% and 77.2% correct with a reported empirical average of 76.2% on the training set, and between 55.9% and 68.9% correct with a reported empirical average of 64.2% on the public evaluation set. However, we also find that 790 out of the 800 tasks were solvable by at least one person in three attempts, suggesting that the vast majority of the publicly available ARC tasks are in principle solvable by typical crowd-workers recruited over the internet. Notably, while these numbers are slightly lower than earlier estimates, human performance still greatly exceeds current state-of-the-art approaches for solving ARC. To facilitate research on ARC, we publicly release our dataset, called H-ARC (human-ARC), which includes all of the submissions and action traces from human participants.
- Abstract(参考訳): ARC(Abstraction and Reasoning Corpus)は、人や機械における配布外一般化の挑戦をテストするために設計されたビジュアルプログラム合成ベンチマークである。
2019年以降、既存の人工知能手法による課題について、限られた進展が観察されている。
人間と機械のパフォーマンスを比較することは、ベンチマークの有効性にとって重要である。
以前の研究では、人間がARCベンチマークからいかにうまくタスクを解くことができるかを調べたが、それらは元のデータセットやARCの変種からのタスクのサブセットのみを使用していたため、人間のパフォーマンスを仮に見積もっただけだった。
本研究では,元のARC問題集合から,400のトレーニングと400のタスクの完全なセット上で1729人の人間を評価することにより,より堅牢な人的パフォーマンスの推定値を得る。
トレーニングセットでは、平均人のパフォーマンスが73.3%から77.2%、トレーニングセットでは76.2%、公的評価セットでは55.9%から68.9%と報告されている経験平均が64.2%と見積もられている。
しかし、800件のうち790件は少なくとも1件の人が3回試みて解決可能であり、一般に公開されているARCタスクの大部分は、インターネット上で採用される一般的なクラウドワーカーによって原則的に解決可能であることを示唆している。
特に、これらの数値は以前の推定よりもわずかに低いが、人間のパフォーマンスはARCを解くための最先端のアプローチを大きく上回っている。
ARCの研究を容易にするために、私たちはH-ARC(Human-ARC)と呼ばれるデータセットを公開しました。
関連論文リスト
- RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts [4.112091541691995]
7つの挑戦的でオープンなMLリサーチエンジニアリング環境と、61人の専門家による71の8時間の試みのデータで構成されるRE-Benchを紹介します。
最高のAIエージェントは、環境当たりの合計時間予算が2時間与えられたとき、人間の専門家よりも4倍高いスコアを得る。
現在、人間は時間予算の増加に対してより良いリターンを示しており、8時間予算で上位AIエージェントのスコアをわずかに上回り、合計32時間(異なる試み)で上位AIエージェントのスコアを2倍にしている。
論文 参考訳(メタデータ) (2024-11-22T18:30:46Z) - The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。
本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks [57.89516354418451]
我々は,HumaN-Robotコラボレーション(PARTNR)における計画と推論タスクのベンチマークを示す。
大規模言語モデル(LLM)を用いた半自動タスク生成パイプラインを用いる。
我々は、計画、知覚、スキル実行の軸を越えて、PartinNRタスクにおける最先端のLCMを分析します。
論文 参考訳(メタデータ) (2024-10-31T17:53:12Z) - Towards Automation of Human Stage of Decay Identification: An Artificial Intelligence Approach [3.2048813174244795]
本研究では,人工知能(AI)を用いた2つの共通分解スコアリング手法の自動化の可能性について検討する。
Inception V3 と Xception という2つの一般的なディープラーニングモデルについて,人間の分解画像の大規模なデータセットでトレーニングすることで評価した。
Xceptionモデルは、マクロ平均F1スコアが.878,.881,.702で、頭部、胴体、手足に最高の分類性能を達成した。
論文 参考訳(メタデータ) (2024-08-19T21:00:40Z) - Sources of Gain: Decomposing Performance in Conditional Average Dose Response Estimation [0.9332308328407303]
条件付き平均線量応答(CADR)の推定は重要であるが難しい問題である。
本稿では,この手法を解析し,さらなる分析を行わない一般的なベンチマークデータセットを用いることで,モデル性能を判断するには不十分であることを示す。
本稿では,CADR推定器の性能に寄与する5つの異なる成分の影響を評価できる新しい分解手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T13:39:32Z) - Better than Random: Reliable NLG Human Evaluation with Constrained Active Sampling [50.08315607506652]
信頼性の高い人的判断のための制約付きアクティブサンプリングフレームワーク(CASF)を提案する。
実験の結果、CASFは93.18%のシステム認識精度が得られた。
論文 参考訳(メタデータ) (2024-06-12T07:44:36Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - UniHCP: A Unified Model for Human-Centric Perceptions [75.38263862084641]
我々は、人間中心知覚のための統一モデル(UniHCP)を提案する。
UniHCPは、単純なエンドツーエンドで広範囲の人間中心のタスクをプレーンビジョントランスフォーマーアーキテクチャと統合する。
33の人間中心のデータセットで大規模な共同トレーニングを行うことで、UniHCPは直接評価によって強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-03-06T07:10:07Z) - Real-Time Visual Feedback to Guide Benchmark Creation: A
Human-and-Metric-in-the-Loop Workflow [22.540665278228975]
NLPのための新しいベンチマーク作成パラダイムであるVAIDAを提案する。
VAIDAは、ベンチマークの慣用性に対処する未調査の顔である、クラウドワーカーを導くことに焦点を当てている。
VAIDAは, クラウドワーカーやアナリストの努力, フラストレーション, 精神的, 時間的要求を減少させる。
論文 参考訳(メタデータ) (2023-02-09T04:43:10Z) - Bottom-Up 2D Pose Estimation via Dual Anatomical Centers for Small-Scale
Persons [75.86463396561744]
マルチパーソン2Dポーズ推定では、ボトムアップ手法は同時にすべての人のポーズを予測する。
本手法は,バウンディングボックス精度を38.4%改善し,バウンディングボックスリコールを39.1%改善した。
ヒトのポーズAP評価では,COCOテストデフセット上で新しいSOTA(71.0 AP)を単一スケールテストで達成する。
論文 参考訳(メタデータ) (2022-08-25T10:09:10Z) - A Review for Deep Reinforcement Learning in Atari:Benchmarks,
Challenges, and Solutions [0.0]
Atari 2600ゲームにおけるエージェントの汎用性を実証的に評価するための評価プラットフォームとして,アーケード学習環境(Arcade Learning Environment, ALE)を提案する。
Deep Q-Networks (DQN) から Agent57 まで、RL エージェントは ALE において超人的性能を達成しているようだ。
本稿では,人間の世界記録(HWR)に基づく新しいAtariベンチマークを提案する。
論文 参考訳(メタデータ) (2021-12-08T06:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。