論文の概要: MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback
- arxiv url: http://arxiv.org/abs/2505.17873v3
- Date: Sat, 25 Oct 2025 14:00:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.564646
- Title: MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback
- Title(参考訳): MOOSE-Chem3:シミュレートされた実験フィードバックによる実験誘導仮説ランク付けに向けて
- Authors: Wanhao Liu, Zonglin Yang, Jue Wang, Lidong Bing, Di Zhang, Dongzhan Zhou, Yuqiang Li, Houqiang Li, Erik Cambria, Wanli Ouyang,
- Abstract要約: 先行テストからのフィードバックに基づいて仮説を優先順位付けする実験誘導ランキングを導入する。
我々は、シーケンシャルな意思決定問題として実験誘導型ランキングを定めている。
我々のアプローチは、実験前のベースラインと強い改善を著しく上回る。
- 参考スコア(独自算出の注目度): 136.27567671480156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hypothesis ranking is vital for automated scientific discovery, especially in cost-intensive, throughput-limited natural science domains. Current methods focus on pre-experiment ranking, relying solely on language model reasoning without empirical feedback. We introduce experiment-guided ranking, which prioritizes hypotheses based on feedback from prior tests. Due to the impracticality of real experiments, we propose a simulator grounded in domain-specific concepts that models hypothesis performance as a function of similarity to a hidden ground truth, perturbed by noise. Validated against 124 hypotheses with experimentally reported outcomes, the simulator approximates real results with consistent trend alignment. Although deviations exist, they mimic wet-lab noise, promoting more robust ranking strategies. We frame experiment-guided ranking as a sequential decision-making problem and propose an in-context reinforcement learning (ICRL) framework. Our LLM-based policy decomposes hypotheses into functional elements, clusters them by mechanistic roles, and prioritizes recombinations based on feedback. Experiments show our approach significantly outperforms pre-experiment baselines and strong ablations. Our toolkit, comprising the simulator and ICRL framework, enables systematic research on experiment-guided ranking, with the policy serving as a strong proof of concept.
- Abstract(参考訳): 仮説ランキングは、特にコスト集約的でスループットに制限のある自然科学領域において、自動化された科学的発見に不可欠である。
現在の手法は実験前のランキングに重点を置いており、経験的なフィードバックなしに言語モデル推論にのみ依存している。
先行テストからのフィードバックに基づいて仮説を優先順位付けする実験誘導ランキングを導入する。
実実験の不現実性から,隠れた真実に類似する関数として仮説性能をモデル化する領域固有概念を基礎としたシミュレータを提案する。
実験結果が報告された124の仮説に対して検証されたシミュレータは、実際の結果を一貫した傾向アライメントで近似する。
偏差はあるが、それらは濡れた音を模倣し、より堅牢なランキング戦略を促進する。
我々は,実験誘導型ランキングを逐次意思決定問題として捉え,文脈内強化学習(ICRL)フレームワークを提案する。
LLMに基づくポリシでは,仮説を機能的要素に分解し,機械的役割によってそれらをクラスタ化し,フィードバックに基づいて再結合を優先順位付けする。
実験により、我々のアプローチは実験前のベースラインと強い改善を著しく上回っていることが示された。
我々のツールキットはシミュレータとICRLフレームワークから構成されており、実験誘導ランキングに関する体系的な研究が可能であり、このポリシーは概念実証の強力な役割を果たしている。
関連論文リスト
- MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hierarchical Search [93.64235254640967]
大規模言語モデル (LLM) は科学的仮説生成の自動化において有望であることを示している。
詳細な科学的仮説発見の新たな課題を定めている。
本稿では,仮説に詳細を漸進的に提案・統合する階層探索手法を提案する。
論文 参考訳(メタデータ) (2025-05-25T16:13:46Z) - Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
予測型因果推論(PPCI)に焦点をあてる
PPCIは、未ラベルの事実結果を用いた対象実験における治療効果を推定し、事前訓練されたモデルからゼロショットを取得する。
バニラ実験的リスク最小化によって解決不可能なインスタンスに対するソリューションを提供するため,本手法を合成および実世界の科学的データに対して検証する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery [24.630117520005257]
実験的な設計とモデル発見を評価するための10環境のベンチマークであるBoxingGymを紹介する。
予測情報ゲイン(EIG)は,実験が生成モデルのパラメータの不確実性をどの程度低減するかを測定する情報理論量である。
GPT-4oのような現在のLLMは、実験的な設計とモデル発見の両方に苦戦している。
論文 参考訳(メタデータ) (2025-01-02T21:15:57Z) - Simulating Field Experiments with Large Language Models [0.6144680854063939]
本稿では,大規模言語モデル(LLM)のフィールド実験への応用を先導する。
観測者モードと参加者モードという2つの新しいプロンプト戦略を導入することで、複雑なフィールド設定において、結果の予測と参加者応答の再現の両方を行うLLMの能力を実証する。
以上の結果から,特定のシナリオにおいて実際の実験結果と良好な一致を示し,観察モードでは66%の刺激精度が得られた。
論文 参考訳(メタデータ) (2024-08-19T03:41:43Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z) - The Challenge of Using LLMs to Simulate Human Behavior: A Causal Inference Perspective [0.27624021966289597]
大きな言語モデル(LLM)は、人間の振る舞いをシミュレートする素晴らしい可能性を示している。
実験をシミュレートする上での根本的な課題を特定します。
LLMを模擬した被験者が実験設計に盲目である場合、治療のバリエーションは不特定変数に系統的に影響を及ぼす。
論文 参考訳(メタデータ) (2023-12-24T16:32:35Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z) - A Double Machine Learning Approach to Combining Experimental and Observational Data [59.29868677652324]
実験と観測を組み合わせた二重機械学習手法を提案する。
我々の枠組みは、より軽度の仮定の下で、外部の妥当性と無知の違反を検査する。
論文 参考訳(メタデータ) (2023-07-04T02:53:11Z) - Optimal tests following sequential experiments [0.0]
本研究の目的は, それらの特性を解析することにより, 逐次実験のための最適試験の開発を支援することである。
我々の重要な発見は、任意のテストのパワー関数が極限実験でテストによって一致できることである。
この結果は、強力な充足結果を含む重要な意味を持つ。
論文 参考訳(メタデータ) (2023-04-30T06:09:49Z) - Optimal Learning for Sequential Decisions in Laboratory Experimentation [0.0]
このチュートリアルは、実験科学者に意思決定の科学の基礎を提供することを目的としている。
学習政策の概念を導入し,主要な政策カテゴリを概観する。
次に、知識勾配と呼ばれるポリシーを導入し、各実験からの情報の価値を最大化する。
論文 参考訳(メタデータ) (2020-04-11T14:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。