論文の概要: BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery
- arxiv url: http://arxiv.org/abs/2501.01540v1
- Date: Thu, 02 Jan 2025 21:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:12:13.999248
- Title: BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery
- Title(参考訳): BoxingGym: 自動実験設計とモデル発見におけるベンチマークの進歩
- Authors: Kanishk Gandhi, Michael Y. Li, Lyle Goodyear, Louise Li, Aditi Bhaskar, Mohammed Zaman, Noah D. Goodman,
- Abstract要約: 実験的な設計とモデル発見を評価するための10環境のベンチマークであるBoxingGymを紹介する。
予測情報ゲイン(EIG)は,実験が生成モデルのパラメータの不確実性をどの程度低減するかを測定する情報理論量である。
GPT-4oのような現在のLLMは、実験的な設計とモデル発見の両方に苦戦している。
- 参考スコア(独自算出の注目度): 24.630117520005257
- License:
- Abstract: Understanding the world and explaining it with scientific theories is a central aspiration of artificial intelligence research. Proposing theories, designing experiments to test them, and then revising them based on data are fundamental to scientific discovery. Despite the significant promise of LLM-based scientific agents, no benchmarks systematically test LLM's ability to propose scientific models, collect experimental data, and revise them in light of new data. We introduce BoxingGym, a benchmark with 10 environments for systematically evaluating both experimental design (e.g. collecting data to test a scientific theory) and model discovery (e.g. proposing and revising scientific theories). To enable tractable and quantitative evaluation, we implement each environment as a generative probabilistic model with which a scientific agent can run interactive experiments. These probabilistic models are drawn from various real-world scientific domains ranging from psychology to ecology. To quantitatively evaluate a scientific agent's ability to collect informative experimental data, we compute the expected information gain (EIG), an information-theoretic quantity which measures how much an experiment reduces uncertainty about the parameters of a generative model. A good scientific theory is a concise and predictive explanation. Therefore, to quantitatively evaluate model discovery, we ask a scientific agent to explain their model and then assess whether this explanation enables another scientific agent to make reliable predictions about this environment. In addition to this explanation-based evaluation, we compute standard model evaluation metrics such as prediction errors. We find that current LLMs, such as GPT-4o, struggle with both experimental design and model discovery. We find that augmenting the LLM-based agent with an explicit statistical model does not reliably improve these results.
- Abstract(参考訳): 世界を理解し、科学理論で説明することは、人工知能研究の中心的な願望である。
理論を提示し、実験を設計し、データに基づいてそれらを修正することは、科学的な発見に不可欠である。
LLMベースの科学エージェントの有望さにもかかわらず、LLMが科学的モデルを提案し、実験データを収集し、新しいデータに照らして修正する能力を体系的にテストするベンチマークは存在しない。
BoxingGymは、実験設計(例えば、科学的理論をテストするためのデータ収集)とモデル発見(例えば、科学的理論の提唱と改訂)の両方を体系的に評価する10の環境を持つベンチマークである。
抽出可能で定量的な評価を可能にするため,科学エージェントが対話的な実験を行える生成確率モデルとして,各環境を実装した。
これらの確率モデルは、心理学から生態学まで、様々な現実世界の科学的領域から導かれる。
情報化実験データを収集する科学的エージェントの能力を定量的に評価するため、予測情報ゲイン(EIG)を計算し、実験が生成モデルのパラメータに関する不確実性をどの程度低減するかを測定する情報理論量とする。
優れた科学的理論は簡潔で予測的な説明である。
そこで我々は,モデル発見を定量的に評価するために,科学的エージェントにモデルの説明を依頼し,その説明によって他の科学的エージェントがこの環境について信頼できる予測を行うことができるかどうかを評価する。
この説明に基づく評価に加えて,予測誤差などの標準モデル評価指標を計算した。
GPT-4oのような現在のLLMは、実験的な設計とモデル発見の両方に苦戦している。
その結果, LLM エージェントを明示的な統計モデルで拡張しても, 精度は向上しないことがわかった。
関連論文リスト
- Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
本研究では,ラベル付き類似実験を微調整した予測モデルを用いて,ラベル付き実結果を用いた対象実験の因果推論に焦点をあてる。
まず,経験的リスク最小化(ERM)による実結果推定は,対象個体群に対して有効な因果推論を導出できない可能性があることを示す。
本稿では,実証的リスク最小化法(DEM)を提案する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - Hypothesizing Missing Causal Variables with LLMs [55.28678224020973]
我々は、入力が欠落変数を持つ部分因果グラフであるような新しいタスクを定式化し、出力は部分グラフを完成させるための欠落変数に関する仮説である。
原因と効果の間の媒介変数を仮説化するLLMの強い能力を示す。
また,オープンソースモデルの一部がGPT-4モデルより優れているという驚くべき結果も得られた。
論文 参考訳(メタデータ) (2024-09-04T10:37:44Z) - Smoke and Mirrors in Causal Downstream Tasks [59.90654397037007]
本稿では, 治療効果推定の因果推論タスクについて検討し, 高次元観察において利害関係が記録されている。
最先端の視覚バックボーンから微調整した6つの480モデルを比較し、サンプリングとモデリングの選択が因果推定の精度に大きく影響することを発見した。
以上の結果から,今後のベンチマークでは,下流の科学的問題,特に因果的な問題について慎重に検討すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-05-27T13:26:34Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z) - Large Language Models are Zero Shot Hypothesis Proposers [17.612235393984744]
大規模言語モデル(LLM)は、情報障壁を断ち切ることを約束する、グローバルかつ学際的な知識の豊富なものである。
バイオメディカル文献から背景知識と仮説ペアからなるデータセットを構築した。
ゼロショット, 少数ショット, 微調整設定において, 最上位モデルの仮説生成能力を評価する。
論文 参考訳(メタデータ) (2023-11-10T10:03:49Z) - Designing Optimal Behavioral Experiments Using Machine Learning [8.759299724881219]
BOEDと機械学習の最近の進歩を活用して、あらゆる種類のモデルに対して最適な実験を見つけるためのチュートリアルを提供する。
マルチアームバンディット意思決定タスクにおける探索と搾取のバランスに関する理論を考察する。
文献でよく用いられる実験的な設計と比較すると、最適な設計は個人の行動に最適なモデルのどれが最適かをより効率的に決定する。
論文 参考訳(メタデータ) (2023-05-12T18:24:30Z) - Online simulator-based experimental design for cognitive model selection [74.76661199843284]
本稿では,抽出可能な確率を伴わない計算モデルを選択する実験設計手法BOSMOSを提案する。
シミュレーション実験では,提案手法により,既存のLFI手法に比べて最大2桁の精度でモデルを選択することができることを示した。
論文 参考訳(メタデータ) (2023-03-03T21:41:01Z) - GFlowNets for AI-Driven Scientific Discovery [74.27219800878304]
我々はGFlowNetsと呼ばれる新しい確率論的機械学習フレームワークを提案する。
GFlowNetsは、実験科学ループのモデリング、仮説生成、実験的な設計段階に適用できる。
我々は、GFlowNetsがAIによる科学的発見の貴重なツールになり得ると論じている。
論文 参考訳(メタデータ) (2023-02-01T17:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。