論文の概要: Matter-of-Fact: A Benchmark for Verifying the Feasibility of Literature-Supported Claims in Materials Science
- arxiv url: http://arxiv.org/abs/2506.04410v1
- Date: Wed, 04 Jun 2025 19:43:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.403179
- Title: Matter-of-Fact: A Benchmark for Verifying the Feasibility of Literature-Supported Claims in Materials Science
- Title(参考訳): 事実:材料科学における文学的主張の可能性検証のためのベンチマーク
- Authors: Peter Jansen, Samiah Hassan, Ruoyao Wang,
- Abstract要約: 本稿では,仮説の妥当性をクレームとして決定するための課題データセットであるMatter-of-Factを紹介する。
科学的文献やコード生成に比較して,検索の強化を含む強力なベースラインが72%以上の性能を達成できないことを示す。
- 参考スコア(独自算出の注目度): 1.7113423851651721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary approaches to assisted scientific discovery use language models to automatically generate large numbers of potential hypothesis to test, while also automatically generating code-based experiments to test those hypotheses. While hypotheses can be comparatively inexpensive to generate, automated experiments can be costly, particularly when run at scale (i.e. thousands of experiments). Developing the capacity to filter hypotheses based on their feasibility would allow discovery systems to run at scale, while increasing their likelihood of making significant discoveries. In this work we introduce Matter-of-Fact, a challenge dataset for determining the feasibility of hypotheses framed as claims. Matter-of-Fact includes 8.4k claims extracted from scientific articles spanning four high-impact contemporary materials science topics, including superconductors, semiconductors, batteries, and aerospace materials, while including qualitative and quantitative claims from theoretical, experimental, and code/simulation results. We show that strong baselines that include retrieval augmented generation over scientific literature and code generation fail to exceed 72% performance on this task (chance performance is 50%), while domain-expert verification suggests nearly all are solvable -- highlighting both the difficulty of this task for current models, and the potential to accelerate scientific discovery by making near-term progress.
- Abstract(参考訳): 現代の科学的発見を支援するアプローチでは、言語モデルを使用して、テストする可能性のある多数の仮説を自動生成すると同時に、それらの仮説をテストするためのコードベースの実験を自動生成する。
仮説は比較的安価に生成できるが、自動化された実験はコストがかかる。
可能性に基づいて仮説をフィルタリングする能力を開発することで、発見システムを大規模に実行し、重要な発見を行う可能性を高めることができる。
本研究では,仮説がクレームとしてフレーム化される可能性を決定するための課題データセットであるMatter-of-Factを紹介する。
マター・オブ・ファクトは、超伝導体、半導体、電池、航空宇宙材料を含む4つの現代物質科学のトピックにまたがる科学論文から8.4kのクレームを抽出し、理論、実験、コード/シミュレーションの結果から定性的かつ定量的クレームを含む。
科学的文献とコード生成の検索を含む強力なベースラインは、このタスクのパフォーマンスが72%を超えない(チャンスパフォーマンスは50%)一方で、ドメイン専門家による検証では、ほぼすべてが解決可能であることが示されています。
関連論文リスト
- ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。
我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。
学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-27T08:09:15Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z) - Large Language Models are Zero Shot Hypothesis Proposers [17.612235393984744]
大規模言語モデル(LLM)は、情報障壁を断ち切ることを約束する、グローバルかつ学際的な知識の豊富なものである。
バイオメディカル文献から背景知識と仮説ペアからなるデータセットを構築した。
ゼロショット, 少数ショット, 微調整設定において, 最上位モデルの仮説生成能力を評価する。
論文 参考訳(メタデータ) (2023-11-10T10:03:49Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z) - Can ChatGPT be used to generate scientific hypotheses? [0.2010294990327175]
生成AIは、膨大な量の科学的知識を効果的に構築し、興味深く検証可能な仮説を提供することができるようだ。
将来の科学企業には、自動実験と敵対的ピアレビューによって挑戦された「仮説マシン」の群れとのシナジスティックな取り組みが含まれるかもしれない。
論文 参考訳(メタデータ) (2023-03-30T20:40:52Z) - GFlowNets for AI-Driven Scientific Discovery [74.27219800878304]
我々はGFlowNetsと呼ばれる新しい確率論的機械学習フレームワークを提案する。
GFlowNetsは、実験科学ループのモデリング、仮説生成、実験的な設計段階に適用できる。
我々は、GFlowNetsがAIによる科学的発見の貴重なツールになり得ると論じている。
論文 参考訳(メタデータ) (2023-02-01T17:29:43Z) - Interpretable and Explainable Machine Learning for Materials Science and
Chemistry [2.2175470459999636]
材料科学・化学における解釈可能性および説明可能性技術の応用を概説する。
材料科学における機械学習の解釈に関する様々な課題について論じる。
我々は、物質科学や化学問題における解釈可能性に恩恵をもたらす可能性のある、他の分野における多くのエキサイティングな展開を紹介します。
論文 参考訳(メタデータ) (2021-11-01T15:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。