論文の概要: MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hierarchical Search
- arxiv url: http://arxiv.org/abs/2505.19209v1
- Date: Sun, 25 May 2025 16:13:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.979972
- Title: MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hierarchical Search
- Title(参考訳): MOOSE-Chem2:階層探索による微粒化科学仮説発見におけるLCM限界の探索
- Authors: Zonglin Yang, Wanhao Liu, Ben Gao, Yujie Liu, Wei Li, Tong Xie, Lidong Bing, Wanli Ouyang, Erik Cambria, Dongzhan Zhou,
- Abstract要約: 大規模言語モデル (LLM) は科学的仮説生成の自動化において有望であることを示している。
詳細な科学的仮説発見の新たな課題を定めている。
本稿では,仮説に詳細を漸進的に提案・統合する階層探索手法を提案する。
- 参考スコア(独自算出の注目度): 93.64235254640967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown promise in automating scientific hypothesis generation, yet existing approaches primarily yield coarse-grained hypotheses lacking critical methodological and experimental details. We introduce and formally define the novel task of fine-grained scientific hypothesis discovery, which entails generating detailed, experimentally actionable hypotheses from coarse initial research directions. We frame this as a combinatorial optimization problem and investigate the upper limits of LLMs' capacity to solve it when maximally leveraged. Specifically, we explore four foundational questions: (1) how to best harness an LLM's internal heuristics to formulate the fine-grained hypothesis it itself would judge as the most promising among all the possible hypotheses it might generate, based on its own internal scoring-thus defining a latent reward landscape over the hypothesis space; (2) whether such LLM-judged better hypotheses exhibit stronger alignment with ground-truth hypotheses; (3) whether shaping the reward landscape using an ensemble of diverse LLMs of similar capacity yields better outcomes than defining it with repeated instances of the strongest LLM among them; and (4) whether an ensemble of identical LLMs provides a more reliable reward landscape than a single LLM. To address these questions, we propose a hierarchical search method that incrementally proposes and integrates details into the hypothesis, progressing from general concepts to specific experimental configurations. We show that this hierarchical process smooths the reward landscape and enables more effective optimization. Empirical evaluations on a new benchmark of expert-annotated fine-grained hypotheses from recent chemistry literature show that our method consistently outperforms strong baselines.
- Abstract(参考訳): 大規模言語モデル (LLMs) は科学的仮説生成の自動化において有望であるが、既存のアプローチは決定的な方法論や実験的な詳細を欠いた粗粒度の仮説を主に生み出している。
我々は, 詳細な実験可能な仮説を粗い初期研究方向から生成する, 詳細な科学的仮説発見という新たな課題を, 正式に導入し, 定義する。
我々はこれを組合せ最適化問題とみなし、LLMの最大活用時の上限値について検討する。
具体的には,(1) LLMの内的ヒューリスティックスを最大限に活用して,それが生成可能な仮説の中で最も有望なものであると判断する上で,(1) LLMの内的ヒューリスティックスを最大限に活用する方法,(2) LLM-judged の優れた仮説が地道仮説とより強い整合性を示すか否か,(3) 同様の能力を持つ多様なLLMのアンサンブルを用いて報酬ランドスケープを形成すれば,その中にある最強のLLMの反復例で定義するよりも優れた結果が得られるか,(4) 同じLLMのアンサンブルが単一のLLMよりも信頼性の高い報酬ランドスケープを提供するかどうか,という4つの基本的疑問を考察する。
これらの問題に対処するため、我々は、一般概念から特定の実験構成へと進化する仮説に詳細を漸進的に提案し、統合する階層探索手法を提案する。
この階層的なプロセスは報酬の景観を円滑にし、より効率的な最適化を可能にすることを示す。
近年の化学文献から得られた専門家による微粒な仮説の新たなベンチマークに関する実証的な評価は、我々の手法が強い基準線を一貫して上回っていることを示している。
関連論文リスト
- ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。
我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。
学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-27T08:09:15Z) - MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses [72.39144388083712]
大規模言語モデル(LLM)が化学において新規で有効な仮説を自律的に生成できるかどうかは不明である。
我々は、2024年1月以降に発行され、オンライン化された51のハイインパクト化学論文のベンチマークを開発し、それぞれが背景、インスピレーション、仮説を手動で注釈付けした。
LLMは、人間によってまだ認識されていない、潜伏した科学的知識の関連をすでにコード化していると仮定する。
論文 参考訳(メタデータ) (2024-10-09T17:19:58Z) - Simulating Field Experiments with Large Language Models [0.6144680854063939]
本稿では,大規模言語モデル(LLM)のフィールド実験への応用を先導する。
観測者モードと参加者モードという2つの新しいプロンプト戦略を導入することで、複雑なフィールド設定において、結果の予測と参加者応答の再現の両方を行うLLMの能力を実証する。
以上の結果から,特定のシナリオにおいて実際の実験結果と良好な一致を示し,観察モードでは66%の刺激精度が得られた。
論文 参考訳(メタデータ) (2024-08-19T03:41:43Z) - Fine-Grained Self-Endorsement Improves Factuality and Reasoning [72.83651220132495]
本研究は, 大規模言語モデル (LLM) 世代を推定時に改善するために, ファクト・コンプレッション・幻覚を緩和する。
本稿では,複数のサンプル応答におけるファクトレベルの詳細な比較を生かした自己組織化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-23T22:24:40Z) - Large Language Models are Zero Shot Hypothesis Proposers [17.612235393984744]
大規模言語モデル(LLM)は、情報障壁を断ち切ることを約束する、グローバルかつ学際的な知識の豊富なものである。
バイオメディカル文献から背景知識と仮説ペアからなるデータセットを構築した。
ゼロショット, 少数ショット, 微調整設定において, 最上位モデルの仮説生成能力を評価する。
論文 参考訳(メタデータ) (2023-11-10T10:03:49Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。