論文の概要: Predicting Empirical AI Research Outcomes with Language Models
- arxiv url: http://arxiv.org/abs/2506.00794v1
- Date: Sun, 01 Jun 2025 02:46:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.595618
- Title: Predicting Empirical AI Research Outcomes with Language Models
- Title(参考訳): 言語モデルによる経験的AI研究の結果を予測する
- Authors: Jiaxin Wen, Chenglei Si, Yueh-han Chen, He He, Shi Feng,
- Abstract要約: AI研究における有望なアイデアの多くは提供されないが、その検証には相当な人的労力と計算が必要だ。
このタスクの最初のベンチマークを構築し、LMと人間の専門家を比較します。
私たちはカンファレンス論文からアイデアと実験結果を取り除き、ベースモデルがテストの切り離し日後に公表された1,585人の人間による検証されたアイデアペアを生成しました。
我々は,精巧なGPT-4.1と紙検索エージェントを組み合わせたシステムを開発し,25人の人間専門家を雇って比較する。
NLP領域では、我々のシステムは人間の専門家を64.4%対48.で破る。
- 参考スコア(独自算出の注目度): 27.148683265085012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many promising-looking ideas in AI research fail to deliver, but their validation takes substantial human labor and compute. Predicting an idea's chance of success is thus crucial for accelerating empirical AI research, a skill that even expert researchers can only acquire through substantial experience. We build the first benchmark for this task and compare LMs with human experts. Concretely, given two research ideas (e.g., two jailbreaking methods), we aim to predict which will perform better on a set of benchmarks. We scrape ideas and experimental results from conference papers, yielding 1,585 human-verified idea pairs published after our base model's cut-off date for testing, and 6,000 pairs for training. We then develop a system that combines a fine-tuned GPT-4.1 with a paper retrieval agent, and we recruit 25 human experts to compare with. In the NLP domain, our system beats human experts by a large margin (64.4% v.s. 48.9%). On the full test set, our system achieves 77% accuracy, while off-the-shelf frontier LMs like o3 perform no better than random guessing, even with the same retrieval augmentation. We verify that our system does not exploit superficial features like idea complexity through extensive human-written and LM-designed robustness tests. Finally, we evaluate our system on unpublished novel ideas, including ideas generated by an AI ideation agent. Our system achieves 63.6% accuracy, demonstrating its potential as a reward model for improving idea generation models. Altogether, our results outline a promising new direction for LMs to accelerate empirical AI research.
- Abstract(参考訳): AI研究における有望なアイデアの多くは提供されないが、その検証には相当な人的労力と計算が必要だ。
したがって、アイデアが成功する可能性を予測することは、経験的AI研究の加速に不可欠である。
このタスクの最初のベンチマークを構築し、LMと人間の専門家を比較します。
具体的には、2つの研究アイデア(例えば、2つのjailbreakingメソッド)を考えると、ベンチマークセットでどれがより良く動作するかを予測することを目的としています。
私たちはカンファレンス論文からアイデアと実験結果を取り除き、ベースモデルのカットオフ日後に公表された1,585対の人間検証されたアイデアペアと、トレーニングのための6000対のトレーニングを行ないました。
次に、精巧なGPT-4.1と紙検索エージェントを組み合わせたシステムを開発し、比較するために25人の人間専門家を募集する。
NLP領域では、我々のシステムは人間の専門家を大きなマージン(64.4%対48.9%)で破る。
一方,O3のようなオフ・ザ・シェルフロンティアのLMは,同じ検索拡張でも,ランダムな推測に勝るものは見当たらないが,本システムでは77%の精度が達成されている。
我々は,人間の手書きやLM設計による堅牢性テストを通じて,概念複雑性などの表面的特徴を活用できないことを確認した。
最後に,AI思考エージェントが生成するアイデアを含む,未発表の新規アイデアについて,本システムの評価を行った。
本システムは63.6%の精度を達成し,アイデア生成モデルを改善するための報酬モデルとしての可能性を示した。
また、実験的なAI研究を加速するためのLMの新たな方向性についても概説した。
関連論文リスト
- RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts [4.06186944042499]
7つの挑戦的でオープンなMLリサーチエンジニアリング環境と、61人の専門家による71の8時間の試みのデータで構成されるRE-Benchを紹介します。
最高のAIエージェントは、環境当たりの合計時間予算が2時間与えられたとき、人間の専門家よりも4倍高いスコアを得る。
現在、人間は時間予算の増加に対してより良いリターンを示しており、8時間予算で上位AIエージェントのスコアをわずかに上回り、合計32時間(異なる試み)で上位AIエージェントのスコアを2倍にしている。
論文 参考訳(メタデータ) (2024-11-22T18:30:46Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers [90.26363107905344]
大型言語モデル(LLM)は、科学的な発見を加速する可能性についての楽観主義を喚起した。
LLMシステムは、新しい専門家レベルのアイデアを生み出すための第一歩を踏み出すことができるという評価はない。
論文 参考訳(メタデータ) (2024-09-06T08:25:03Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - Interesting Scientific Idea Generation using Knowledge Graphs and LLMs: Evaluations with 100 Research Group Leaders [0.6906005491572401]
我々は,5800万件の研究論文と大規模言語モデルを用いて研究アイデアを生成するSciMuseを紹介した。
我々は、100以上の研究グループのリーダーが興味に基づいて4,400以上のパーソナライズされたアイデアをランク付けする大規模な評価を行う。
このデータにより,(1)人間の評価に基づいて訓練された教師付きニューラルネットワーク,(2)大規模言語モデルを用いた教師なしゼロショットランキングを用いて,研究の関心を予測できる。
論文 参考訳(メタデータ) (2024-05-27T11:00:51Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - Unveiling the Sentinels: Assessing AI Performance in Cybersecurity Peer
Review [4.081120388114928]
サイバーセキュリティの分野では、ダブルブラインドピアレビューの実践がデファクトスタンダードである。
本稿では、ピアレビューの聖杯に触れ、学術的セキュリティカンファレンスのレビューにおけるAIのパフォーマンスについて光を当てることを目的としている。
本研究では,人間レビュアーと機械学習モデルから得られた結果を比較し,評価結果の予測可能性について検討する。
論文 参考訳(メタデータ) (2023-09-11T13:51:40Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。