Fugu-MT 論文翻訳(概要): DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents

論文の概要: DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents

arxiv url: http://arxiv.org/abs/2406.06769v2
Date: Mon, 07 Oct 2024 20:19:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 16:48:04.554308
Title: DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents
Title（参考訳）: DiscoVERYWORLD: 自動科学発見エージェントの開発と評価のための仮想環境
Authors: Peter Jansen, Marc-Alexandre Côté, Tushar Khot, Erin Bransom, Bhavana Dalvi Mishra, Bodhisattwa Prasad Majumder, Oyvind Tafjord, Peter Clark,
Abstract要約: 本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。 8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
参考スコア（独自算出の注目度）: 49.74065769505137
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Automated scientific discovery promises to accelerate progress across scientific domains. However, developing and evaluating an AI agent's capacity for end-to-end scientific reasoning is challenging as running real-world experiments is often prohibitively expensive or infeasible. In this work we introduce DISCOVERYWORLD, the first virtual environment for developing and benchmarking an agent's ability to perform complete cycles of novel scientific discovery. DISCOVERYWORLD contains a variety of different challenges, covering topics as diverse as radioisotope dating, rocket science, and proteomics, to encourage development of general discovery skills rather than task-specific solutions. DISCOVERYWORLD itself is an inexpensive, simulated, text-based environment (with optional 2D visual overlay). It includes 120 different challenge tasks, spanning eight topics each with three levels of difficulty and several parametric variations. Each task requires an agent to form hypotheses, design and run experiments, analyze results, and act on conclusions. DISCOVERYWORLD further provides three automatic metrics for evaluating performance, based on (a) task completion, (b) task-relevant actions taken, and (c) the discovered explanatory knowledge. We find that strong baseline agents, that perform well in prior published environments, struggle on most DISCOVERYWORLD tasks, suggesting that DISCOVERYWORLD captures some of the novel challenges of discovery, and thus that DISCOVERYWORLD may help accelerate near-term development and assessment of scientific discovery competency in agents. Code available at: www.github.com/allenai/discoveryworld
Abstract（参考訳）: 科学的発見の自動化は、科学分野の進歩を促進することを約束する。しかし、エンドツーエンドの科学的推論のためのAIエージェントの能力の開発と評価は、実世界の実験を行うことが違法に高価または不可能であるため、難しい。本研究では,新しい科学的発見のサイクルを完遂するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるdiscoVERYWORLDを紹介する。 DISCOVERYWORLDには様々な課題があり、放射性同位体年代測定、ロケット科学、プロテオミクスのようなトピックをカバーし、タスク固有のソリューションよりも一般的な発見スキルの開発を奨励している。 DISCOVERYWORLD自体は安価でシミュレートされたテキストベースの環境(オプションの2Dビジュアルオーバーレイ)である。 120の異なる課題タスクを含み、それぞれ8つのトピックにまたがり、3レベルの難易度といくつかのパラメトリックなバリエーションがある。各タスクには、仮説を作成し、実験を設計し、実行し、結果を分析し、結論に作用するエージェントが必要である。 DISCOVERYWORLDはさらに、パフォーマンス評価のための3つの自動メトリクスを提供する。 (a)タスク完了 (b)タスク関連行動及び (c)発見された説明的知識。その結果,DiscoVERYWORLDは発見の新たな課題のいくつかを捉えており,DiscoVERYWORLDはエージェントの短期的な開発と科学的発見能力の評価に有効である可能性が示唆された。 code available at www.github.com/allenai/discoveryworld

関連論文リスト

The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research [56.80927148740585]
我々は、動的に進化し、研究評価者としてAIエージェントを開発することで、スケーラビリティと厳密さの課題に対処する。我々は,機械的解釈可能性の研究をテストベッドとして使用し,標準化された研究成果を構築し,MechEvalAgentを開発した。我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。
論文参考訳（メタデータ） (2026-02-05T19:00:02Z)
Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.3527268311731]
PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
論文参考訳（メタデータ） (2025-12-18T12:44:36Z)
ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning [118.46980291324148]
ATLASは、約800のオリジナルの問題からなる大規模で、高精度で、学際横断的な評価スイートである。主な特徴は次のとおりである。テストデータの漏洩を防ぐために新しく作成されたり、実質的に適応されたすべての質問を含む、高いオリジン性と汚染抵抗。先行モデルに関する予備的な結果は、ATLASが先進的な科学的推論能力の差別化に有効であることを証明している。
論文参考訳（メタデータ） (2025-11-18T11:13:06Z)
AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。 22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文参考訳（メタデータ） (2025-10-24T17:10:26Z)
ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文参考訳（メタデータ） (2025-05-26T12:27:27Z)
Can AI Agents Design and Implement Drug Discovery Pipelines? [1.5848629658789695]
現在のAIエージェントベースのシステムは、プログラミングの課題を解決し、研究を行う能力を示している。本稿では,AIエージェントの意思決定能力を評価するためのベンチマークであるDO Challengeを紹介する。ベンチマークで強い性能を示したDeep Thoughtのマルチエージェントシステムについて述べる。
論文参考訳（メタデータ） (2025-04-28T15:41:28Z)
Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents [11.74019905854637]
大規模言語モデル(LLM)は、重要なタスクを自動化する科学的エージェントへと進化している。汎用LLMとは異なり、特殊エージェントはドメイン固有の知識、高度なツールセット、堅牢な検証メカニズムを統合する。一般的なエージェントと異なる理由と、さまざまな科学分野の研究を進める方法を強調します。
論文参考訳（メタデータ） (2025-03-31T13:11:28Z)
Scaling Laws in Scientific Discovery with AI and Robot Scientists [72.3420699173245]
自律的なジェネラリスト科学者(AGS)の概念は、エージェントAIとエンボディロボットを組み合わせて、研究ライフサイクル全体を自動化している。 AGSは科学的発見に必要な時間と資源を大幅に削減することを目指している。これらの自律的なシステムが研究プロセスにますます統合されるにつれて、科学的な発見が新しいスケーリング法則に従うかもしれないという仮説を立てる。
論文参考訳（メタデータ） (2025-03-28T14:00:27Z)
HIVEX: A High-Impact Environment Suite for Multi-Agent Research (extended version) [0.0]
HIVEXは環境問題に焦点を当てたマルチエージェント研究をベンチマークする環境スイートである。メインタスクとサブタスクの環境、トレーニング例、ベースラインを提供します。この作業の実験から得られたトレーニングされたモデルはすべて、Hugging Face上にホストされている。
論文参考訳（メタデータ） (2025-01-07T23:16:31Z)
ML Research Benchmark [0.0]
MLRB(ML Research Benchmark)は,最近の機械学習カンファレンスのトラックから派生した7つの競合レベルタスクからなる。本稿では,Claude-3 や GPT-4o などのフロンティアモデルを用いたエージェント足場を用いて,新しいベンチマークを提案し,評価する。結果は、Claude-3.5 Sonnetエージェントがベンチマーク全体で最高のパフォーマンスを示し、機械学習モデルの設計と開発に優れていたことを示唆している。
論文参考訳（メタデータ） (2024-10-29T21:38:42Z)
Two Heads Are Better Than One: A Multi-Agent System Has the Potential to Improve Scientific Idea Generation [48.29699224989952]
VirSciは研究のアイデアを共同で生成し、評価し、洗練するエージェントのチームを組織している。このマルチエージェントアプローチは、新規で影響力のある科学的アイデアを生み出す上で、最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-12T07:16:22Z)
CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark [11.794931453828974]
CORE-Benchは3つの分野(コンピュータ科学、社会科学、医学)にわたる90の科学論文に基づく270のタスクからなるベンチマークである。エージェントの精度を高速かつ並列に測定する評価システムを提案する。最高のエージェントは、最も難しいタスクにおいて21%の精度を達成した。
論文参考訳（メタデータ） (2024-09-17T17:13:19Z)
Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI [129.08019405056262]
人工知能(Embodied AI)は、人工知能(AGI)の実現に不可欠である MLMとWMは、その顕著な知覚、相互作用、推論能力のために、大きな注目を集めている。本調査では,Embodied AIの最近の進歩を包括的に調査する。
論文参考訳（メタデータ） (2024-07-09T14:14:47Z)
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文参考訳（メタデータ） (2024-06-18T16:20:53Z)
"Turing Tests" For An AI Scientist [0.0]
本稿では,AIエージェントが独立して科学的研究を行うことができるかどうかを評価するために,AI科学者の研修試験を提案する。我々は,AIエージェントが様々な科学領域において画期的な発見を行う能力を評価する7つのベンチマークテストを提案する。
論文参考訳（メタデータ） (2024-05-22T05:14:27Z)
WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。 WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文参考訳（メタデータ） (2024-04-11T03:31:54Z)
HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文参考訳（メタデータ） (2024-01-23T18:59:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。