論文の概要: SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories
- arxiv url: http://arxiv.org/abs/2409.07440v1
- Date: Wed, 11 Sep 2024 17:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 13:41:10.283257
- Title: SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories
- Title(参考訳): SuPER:リサーチリポジトリからのタスクの設定と実行に関するエージェントの評価
- Authors: Ben Bogin, Kejuan Yang, Shashank Gupta, Kyle Richardson, Erin Bransom, Peter Clark, Ashish Sabharwal, Tushar Khot,
- Abstract要約: Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
- 参考スコア(独自算出の注目度): 55.161075901665946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given that Large Language Models (LLMs) have made significant progress in writing code, can they now be used to autonomously reproduce results from research repositories? Such a capability would be a boon to the research community, helping researchers validate, understand, and extend prior work. To advance towards this goal, we introduce SUPER, the first benchmark designed to evaluate the capability of LLMs in setting up and executing tasks from research repositories. SUPERaims to capture the realistic challenges faced by researchers working with Machine Learning (ML) and Natural Language Processing (NLP) research repositories. Our benchmark comprises three distinct problem sets: 45 end-to-end problems with annotated expert solutions, 152 sub problems derived from the expert set that focus on specific challenges (e.g., configuring a trainer), and 602 automatically generated problems for larger-scale development. We introduce various evaluation measures to assess both task success and progress, utilizing gold solutions when available or approximations otherwise. We show that state-of-the-art approaches struggle to solve these problems with the best model (GPT-4o) solving only 16.3% of the end-to-end set, and 46.1% of the scenarios. This illustrates the challenge of this task, and suggests that SUPER can serve as a valuable resource for the community to make and measure progress.
- Abstract(参考訳): LLM(Large Language Models)がコード記述に大きな進歩を遂げたことを考えると、研究リポジトリの成果を自律的に再現できるのだろうか?
このような能力は研究コミュニティにとって恩恵となり、研究者が事前の作業を検証し、理解し、拡張するのに役立ちます。
この目標に向けて,研究レポジトリからのタスクのセットアップと実行におけるLLMの能力を評価するために設計された最初のベンチマークであるSUPERを紹介する。
SuperPERaimは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
ベンチマークでは,注釈付きエキスパートソリューションによるエンドツーエンド問題45,特定の課題(例えば,トレーナーの設定)に焦点を絞ったエキスパートセットから導出した152,大規模開発のための602,の3つの問題セットで構成されている。
課題成功と進捗の両立を評価するための様々な評価尺度を導入し、利用可能な金の解や近似を利用。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
このことは、このタスクの課題を浮き彫りにして、SUPERがコミュニティが進捗を計測するための貴重なリソースとなることを示唆している。
関連論文リスト
- MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - Learning Task Decomposition to Assist Humans in Competitive Programming [90.4846613669734]
タスク分解学習のための新しい目的,いわゆる値(AssistV)を導入する。
我々は、さまざまな分解されたソリューションに対して、人間の修理経験のデータセットを収集する。
人間の177時間以内の研究では、非専門家が33.3%の問題を解き、それらを3.3倍スピードアップさせ、無支援の専門家にマッチさせる権限を与える。
論文 参考訳(メタデータ) (2024-06-07T03:27:51Z) - PECC: Problem Extraction and Coding Challenges [3.287942619833188]
PECCは、Advent Of Code(AoC)の課題とProject Eulerから派生した、新しいベンチマークである。
従来のベンチマークとは異なり、PECCは物語に埋め込まれた問題を解釈し、要求を抽出し、コードを生成するためにLCMを必要とする。
結果は、ユーラー数に基づく部分集合において、物語的問題と中立的問題の間に様々なモデル性能を示す。
論文 参考訳(メタデータ) (2024-04-29T15:02:14Z) - Easy-to-Hard Generalization: Scalable Alignment Beyond Human Supervision [98.97575836717931]
現在のAIアライメント手法は、人間が提供する実演や判断に依存している。
彼らの能力が人間のレベルを超えたとき、システムを改善するにはどうすればよいのか?
論文 参考訳(メタデータ) (2024-03-14T15:12:38Z) - Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。
私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。
我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。
まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。
驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文 参考訳(メタデータ) (2023-12-04T18:58:57Z) - Assessing Quality-Diversity Neuro-Evolution Algorithms Performance in
Hard Exploration Problems [10.871978893808533]
QD法(Quality-Diversity method)は、高い性能のニッチ生物を生産する自然の能力に触発された進化的アルゴリズムである。
本稿では,探索困難を伴う高次元制御問題を示す3つの候補ベンチマークについて述べる。
私たちはまた、Jaxのオープンソース実装を提供し、実践者が少ない計算リソース上で高速かつ多数の実験を実行できるようにします。
論文 参考訳(メタデータ) (2022-11-24T18:04:12Z) - Measuring Progress on Scalable Oversight for Large Language Models [19.705153174673576]
我々は、人間専門家が成功するが、人間や現在の汎用AIシステムが失敗するタスクを選択することに焦点を当てた実験的な設計を提案する。
チャットを通じて信頼できない大言語モデルダイアログアシスタントと対話する人間の参加者は、モデル単独と自明なパフォーマンスの両方を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2022-11-04T17:03:49Z) - Learning to Solve Complex Tasks by Talking to Agents [39.08818632689814]
人間は、単純なサブタスクを解くことができるAIアシスタントのような既存のエージェントと対話することで、複雑な問題を解決することが多い。
一般的なNLPベンチマークは、タスク毎に自己充足型モデルを開発することを目的としている。
我々は,異なる能力を持つ4つのエージェントに対して「会話」によって解決されるように設計された3種類の複雑な推論タスクを含むCommaQAという新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-10-16T10:37:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。