論文の概要: COMPOSITE-Stem
- arxiv url: http://arxiv.org/abs/2604.09836v2
- Date: Thu, 16 Apr 2026 21:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 13:38:49.194233
- Title: COMPOSITE-Stem
- Title(参考訳): COMPOSITE-Stem
- Authors: Kyle Waters, Lucas Nuzzi, Tadhg Looram, Alessandro Tomasiello, Ariel Ghislain Kemogne Kamdoum, Bikun Li, Damien Sileo, Egor Kretov, Francesco Fournier-Facio, Georgios Soloupis, Haile Kassahun, Hew Wolff, Jiaqi Cai, Lianghui Li, Marc Roth, Mohinder Naiya, Naixu Guo, Qicheng Tang, Richard Wheeler, Samuele Sala, Serguei Popov, Steven Dillmann, Yuqi Li,
- Abstract要約: COMPOSITE-STEMは、物理学、生物学、化学、数学における70の専門的なタスクのベンチマークである。
我々のベンチマークでは、正確なマッチンググレーティングとクレーターベースのルーリックとアズ・ア・ジャイグリーグレーディングプロトコルを組み合わせる。
トップパフォーマンスモデルは21%を実現し、ComposITE-STEMが現在のエージェントリーチを超える能力をキャプチャすることを示した。
- 参考スコア(独自算出の注目度): 32.17652486099204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents hold growing promise for accelerating scientific discovery; yet, a lack of frontier evaluations hinders adoption into real workflows. Expert-written benchmarks have proven effective at measuring AI reasoning, but most at this stage have become saturated and only measure performance on constrained outputs. To help address this gap, we introduce COMPOSITE-STEM, a benchmark of 70 expert-written tasks in physics, biology, chemistry, and mathematics, curated by doctoral-level researchers. Our benchmark combines exact-match grading and criterion-based rubrics with an LLM-as-a-jury grading protocol, allowing more flexible assessment of scientifically meaningful outputs. Using an adapted multimodal Terminus-2 agent harness within the Harbor agentic evaluation framework, we evaluate four frontier models. The top-performing model achieves 21%, demonstrating that COMPOSITE-STEM captures capabilities beyond current agent reach. All tasks are open-sourced with contributor permission to support reproducibility and to promote additional research towards AI's acceleration of scientific progress in these domains.
- Abstract(参考訳): AIエージェントは、科学的発見を加速する公約が増えているが、フロンティア評価の欠如は、実際のワークフローへの採用を妨げる。
専門家によるベンチマークは、AI推論の測定に有効であることが証明されているが、この段階では、ほとんどが飽和し、制約された出力のパフォーマンスのみを測定するようになった。
このギャップに対処するために、博士レベルの研究者がキュレートした、物理学、生物学、化学、数学の70の専門的なタスクのベンチマークであるComposITE-STEMを紹介する。
我々のベンチマークでは, 正確なマッチンググレーティングと基準に基づくルーリックとLLM-as-a-juryグレーティングプロトコルを組み合わせることで, 科学的に有意な出力の柔軟な評価を可能にした。
ハーバーエージェント評価フレームワークにおける適応型マルチモーダル Terminus-2 エージェントハーネスを用いて、4つのフロンティアモデルを評価する。
トップパフォーマンスモデルは21%を実現し、ComposITE-STEMが現在のエージェントリーチを超える能力をキャプチャすることを示した。
すべてのタスクは、再現性をサポートし、これらの領域におけるAIの科学的進歩の加速に向けたさらなる研究を促進するために、コントリビュータの許可を得て、オープンソース化されている。
関連論文リスト
- AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents [49.67355440164857]
AIRS-Benchは、最先端の機械学習論文から得られた20のタスクからなるスイートである。
Airs-Benchタスクは、研究ライフサイクル全体のエージェント能力を評価する。
本稿では,AIRS-Benchタスク定義と評価コードをオープンソースとして公開し,自律科学研究のさらなる発展を促す。
論文 参考訳(メタデータ) (2026-02-06T16:45:02Z) - FIRE-Bench: Evaluating Agents on the Rediscovery of Scientific Insights [63.32178443510396]
FIRE-Bench (Full-cycle Insight Rediscovery Evaluation) は、確立された発見の再検討を通じてエージェントを評価するベンチマークである。
最強のエージェントでさえ、限られた再発見成功(50 F1)を達成し、実行中に高いばらつきを示し、実験的な設計、実行、エビデンスに基づく推論において繰り返し失敗モードを表示する。
論文 参考訳(メタデータ) (2026-02-02T23:21:13Z) - HeurekaBench: A Benchmarking Framework for AI Co-scientist [2.206319727896241]
HeurekaBenchは、実験データセットに対する探索的でオープンな研究質問を伴うベンチマークを作成するためのフレームワークである。
単細胞生物学のフレームワークをインスタンス化し、Sc-HeurekaBenchベンチマークを取得し、最先端の単細胞エージェントと比較する。
批判モジュールを追加することで、オープンソースLLMエージェントの不正な応答を最大22%改善し、クローズドソースエージェントとのギャップを埋めることができる。
論文 参考訳(メタデータ) (2026-01-04T22:16:42Z) - Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.3527268311731]
PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。
深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。
私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
論文 参考訳(メタデータ) (2025-12-18T12:44:36Z) - From Task Executors to Research Partners: Evaluating AI Co-Pilots Through Workflow Integration in Biomedical Research [0.16174969956296248]
この素早いレビューでは、前臨床生医学研究におけるAIシステムのベンチマークプラクティスについて検討する。
現在のベンチマークから欠落する4つの重要な次元に対処するプロセス指向評価フレームワークが提案されている。
これらの次元は、独立したタスク実行者としてではなく、研究の共同パイロットとしてAIシステムを評価するために不可欠である。
論文 参考訳(メタデータ) (2025-12-04T14:37:46Z) - Dr.Mi-Bench: A Modular-integrated Benchmark for Scientific Deep Research Agent [52.876617746453995]
ミ・ベンチ博士(Dr.Mi-Bench)は、科学深層研究(DR)エージェントのためのモジュール統合ベンチマークである。
Dr.Mi-Evalはモジュラー統合評価パラダイムである。
論文 参考訳(メタデータ) (2025-11-30T17:16:47Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - InnovatorBench: Evaluating Agents' Ability to Conduct Innovative LLM Research [36.46396692622759]
InnovatorBenchは、LLM(Large Language Model)研究を行うエージェントの現実的なエンドツーエンド評価のためのベンチマークプラットフォームである。
データ・コンストラクション、フィルタリング、拡張、ロス・デザイン、リワード・デザイン、スカフォード・コンストラクションにまたがる20のタスクで構成されている。
我々はまた、リッチなアクションスペース、分散された長期実行、非同期監視、スナップショット保存を提供するResearchGymの開発も行っている。
論文 参考訳(メタデータ) (2025-10-31T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。