論文の概要: DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents
- arxiv url: http://arxiv.org/abs/2406.06769v1
- Date: Mon, 10 Jun 2024 20:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 20:15:44.142782
- Title: DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents
- Title(参考訳): DiscoVERYWORLD: 自動科学発見エージェントの開発と評価のための仮想環境
- Authors: Peter Jansen, Marc-Alexandre Côté, Tushar Khot, Erin Bransom, Bhavana Dalvi Mishra, Bodhisattwa Prasad Majumder, Oyvind Tafjord, Peter Clark,
- Abstract要約: 本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
- 参考スコア(独自算出の注目度): 49.74065769505137
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automated scientific discovery promises to accelerate progress across scientific domains. However, developing and evaluating an AI agent's capacity for end-to-end scientific reasoning is challenging as running real-world experiments is often prohibitively expensive or infeasible. In this work we introduce DISCOVERYWORLD, the first virtual environment for developing and benchmarking an agent's ability to perform complete cycles of novel scientific discovery. DISCOVERYWORLD contains a variety of different challenges, covering topics as diverse as radioisotope dating, rocket science, and proteomics, to encourage development of general discovery skills rather than task-specific solutions. DISCOVERYWORLD itself is an inexpensive, simulated, text-based environment (with optional 2D visual overlay). It includes 120 different challenge tasks, spanning eight topics each with three levels of difficulty and several parametric variations. Each task requires an agent to form hypotheses, design and run experiments, analyze results, and act on conclusions. DISCOVERYWORLD further provides three automatic metrics for evaluating performance, based on (a) task completion, (b) task-relevant actions taken, and (c) the discovered explanatory knowledge. We find that strong baseline agents, that perform well in prior published environments, struggle on most DISCOVERYWORLD tasks, suggesting that DISCOVERYWORLD captures some of the novel challenges of discovery, and thus that DISCOVERYWORLD may help accelerate near-term development and assessment of scientific discovery competency in agents. Code available at: www.github.com/allenai/discoveryworld
- Abstract(参考訳): 科学的発見の自動化は、科学分野の進歩を促進することを約束する。
しかし、エンドツーエンドの科学的推論のためのAIエージェントの能力の開発と評価は、実世界の実験を行うことが違法に高価または不可能であるため、難しい。
本研究では,新しい科学的発見のサイクルを完遂するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるdiscoVERYWORLDを紹介する。
DISCOVERYWORLDには様々な課題があり、放射性同位体年代測定、ロケット科学、プロテオミクスのようなトピックをカバーし、タスク固有のソリューションよりも一般的な発見スキルの開発を奨励している。
DISCOVERYWORLD自体は安価でシミュレートされたテキストベースの環境(オプションの2Dビジュアルオーバーレイ)である。
120の異なる課題タスクを含み、それぞれ8つのトピックにまたがり、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
各タスクには、仮説を作成し、実験を設計し、実行し、結果を分析し、結論に作用するエージェントが必要である。
DISCOVERYWORLDはさらに、パフォーマンス評価のための3つの自動メトリクスを提供する。
(a)タスク完了
(b)タスク関連行動及び
(c)発見された説明的知識。
その結果,DiscoVERYWORLDは発見の新たな課題のいくつかを捉えており,DiscoVERYWORLDはエージェントの短期的な開発と科学的発見能力の評価に有効である可能性が示唆された。
code available at www.github.com/allenai/discoveryworld
関連論文リスト
- Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI [95.96983812740683]
人工知能(Embodied AI)は、人工知能(AGI)の実現に不可欠である
MLMとWMは、その顕著な知覚、相互作用、推論能力のために、大きな注目を集めている。
本調査では,Embodied AIの最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-07-09T14:14:47Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - "Turing Tests" For An AI Scientist [0.0]
本稿では,AIエージェントが独立して科学的研究を行うことができるかどうかを評価するために,AI科学者の研修試験を提案する。
我々は,AIエージェントが様々な科学領域において画期的な発見を行う能力を評価する7つのベンチマークテストを提案する。
論文 参考訳(メタデータ) (2024-05-22T05:14:27Z) - WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。
WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。
次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文 参考訳(メタデータ) (2024-04-11T03:31:54Z) - HAZARD Challenge: Embodied Decision Making in Dynamically Changing
Environments [93.94020724735199]
HAZARDは、火災、洪水、風などの3つの予期せぬ災害シナリオで構成されている。
このベンチマークにより、さまざまなパイプラインで自律エージェントの意思決定能力を評価することができる。
論文 参考訳(メタデータ) (2024-01-23T18:59:43Z) - BEHAVIOR: Benchmark for Everyday Household Activities in Virtual,
Interactive, and Ecological Environments [70.18430114842094]
本稿では,シミュレーションにおける100のアクティビティを持つAIのベンチマークであるBEHAVIORを紹介する。
これらの活動は現実的で多様性があり、複雑であるように設計されています。
われわれは、バーチャルリアリティー(VR)における500件の人間デモを含む。
論文 参考訳(メタデータ) (2021-08-06T23:36:23Z) - Improving Playtesting Coverage via Curiosity Driven Reinforcement
Learning Agents [0.4129225533930966]
本稿では,ゲーム状態カバレッジを最大化するためにトレーニングされた強化学習エージェントを用いて,与えられたシナリオを自動的に探索し,テストする問題に対処する。
好奇心のあるエージェントは、地図の周りのさまざまな領域に到達するために必要な複雑なナビゲーションメカニズムを学ぶことができ、潜在的な問題を特定するために必要なデータを提供します。
論文 参考訳(メタデータ) (2021-03-25T12:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。