Fugu-MT 論文翻訳(概要): Can Large Language Models Discern Evidence for Scientific Hypotheses? Case Studies in the Social Sciences

論文の概要: Can Large Language Models Discern Evidence for Scientific Hypotheses? Case Studies in the Social Sciences

arxiv url: http://arxiv.org/abs/2309.06578v2
Date: Wed, 25 Oct 2023 04:57:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 19:50:05.116590
Title: Can Large Language Models Discern Evidence for Scientific Hypotheses? Case Studies in the Social Sciences
Title（参考訳）: 大規模言語モデルは科学的仮説の証拠を識別できるか? 社会科学のケーススタディ
Authors: Sai Koneru, Jian Wu, Sarah Rajtmajer
Abstract要約: 強い仮説は、既存の証拠に基づく最良の推理であり、関連する文献の包括的な見解によって知らされる。毎年発行される科学論文の数が指数関数的に増加すると、ある仮説に関連する証拠の手作業による集約と合成は困難である。我々は,社会科学における研究のコミュニティ主導のアノテーションを用いた科学的仮説の課題のための新しいデータセットを共有する。
参考スコア（独自算出の注目度）: 4.49395656856181
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hypothesis formulation and testing are central to empirical research. A strong hypothesis is a best guess based on existing evidence and informed by a comprehensive view of relevant literature. However, with exponential increase in the number of scientific articles published annually, manual aggregation and synthesis of evidence related to a given hypothesis is a challenge. Our work explores the ability of current large language models (LLMs) to discern evidence in support or refute of specific hypotheses based on the text of scientific abstracts. We share a novel dataset for the task of scientific hypothesis evidencing using community-driven annotations of studies in the social sciences. We compare the performance of LLMs to several state-of-the-art benchmarks and highlight opportunities for future research in this area. The dataset is available at https://github.com/Sai90000/ScientificHypothesisEvidencing.git
Abstract（参考訳）: 仮説の定式化とテストは経験的研究の中心である。強い仮説は、既存の証拠に基づく最良の推理であり、関連する文献の包括的な見解によって知らされる。しかしながら、毎年発行される科学論文の数が指数関数的に増加するにつれて、与えられた仮説に関連する証拠の手動集約と合成は困難である。本研究は, 学術論文のテキストに基づいて, 現在の大規模言語モデル (LLM) が, 特定の仮説を支持したり否定したりする証拠を識別する能力を探るものである。我々は,社会科学における研究のコミュニティ主導アノテーションを用いた科学的仮説の課題のための新しいデータセットを共有する。 llmsの性能を最先端のベンチマークと比較し、この分野における今後の研究の機会を強調する。データセットはhttps://github.com/Sai90000/ScientificHypothesisEvidencing.gitで公開されている。

関連論文リスト

Evaluating Large Language Models in Scientific Discovery [91.732562776782]
大規模言語モデル (LLMs) は科学研究にますます応用されてきているが、科学ベンチマークでは非文脈化された知識を探索している。生物, 化学, 材料, 物理にまたがるLSMを評価するシナリオグラウンドベンチマークを提案する。このフレームワークは、(i)シナリオタイドアイテムの質問レベル精度と(ii)プロジェクトレベルのパフォーマンスの2つのレベルでモデルを評価する。
論文参考訳（メタデータ） (2025-12-17T16:20:03Z)
MOOSE-Chem2: Exploring LLM Limits in Fine-Grained Scientific Hypothesis Discovery via Hierarchical Search [93.64235254640967]
大規模言語モデル (LLM) は科学的仮説生成の自動化において有望であることを示している。詳細な科学的仮説発見の新たな課題を定めている。本稿では,仮説に詳細を漸進的に提案・統合する階層探索手法を提案する。
論文参考訳（メタデータ） (2025-05-25T16:13:46Z)
Toward Reliable Scientific Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models [18.850296587858946]
TruthHypoは,真理仮説を生成する上で,大規模言語モデルの能力を評価するためのベンチマークである。 KnowHDは知識に基づく幻覚検出装置で、既存の知識に基づいて仮説がどれだけうまく構築されているかを評価する。
論文参考訳（メタデータ） (2025-05-20T16:49:40Z)
HypoBench: Towards Systematic and Principled Benchmarking for Hypothesis Generation [24.656083479331645]
仮説生成手法を複数の側面にわたって評価するための新しいベンチマークである hypoBench を紹介する。既存の6つの仮説生成手法と組み合わせた4つの最先端LCMの評価を行った。結果は、現在の仮説生成手法がすべての関連するパターンや意味のあるパターンを完全には明らかにしていないため、改善の余地がまだ大きいことを示している。
論文参考訳（メタデータ） (2025-04-15T18:00:00Z)
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文参考訳（メタデータ） (2025-03-27T08:09:15Z)
BoxingGym: Benchmarking Progress in Automated Experimental Design and Model Discovery [24.630117520005257]
実験的な設計とモデル発見を評価するための10環境のベンチマークであるBoxingGymを紹介する。予測情報ゲイン(EIG)は,実験が生成モデルのパラメータの不確実性をどの程度低減するかを測定する情報理論量である。 GPT-4oのような現在のLLMは、実験的な設計とモデル発見の両方に苦戦している。
論文参考訳（メタデータ） (2025-01-02T21:15:57Z)
Hypothesizing Missing Causal Variables with LLMs [55.28678224020973]
我々は、入力が欠落変数を持つ部分因果グラフであるような新しいタスクを定式化し、出力は部分グラフを完成させるための欠落変数に関する仮説である。原因と効果の間の媒介変数を仮説化するLLMの強い能力を示す。また,オープンソースモデルの一部がGPT-4モデルより優れているという驚くべき結果も得られた。
論文参考訳（メタデータ） (2024-09-04T10:37:44Z)
A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文参考訳（メタデータ） (2024-06-16T08:03:24Z)
LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文参考訳（メタデータ） (2024-05-16T03:04:10Z)
Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文参考訳（メタデータ） (2024-04-01T17:45:15Z)
Large Language Models are Zero Shot Hypothesis Proposers [17.612235393984744]
大規模言語モデル(LLM)は、情報障壁を断ち切ることを約束する、グローバルかつ学際的な知識の豊富なものである。バイオメディカル文献から背景知識と仮説ペアからなるデータセットを構築した。ゼロショット, 少数ショット, 微調整設定において, 最上位モデルの仮説生成能力を評価する。
論文参考訳（メタデータ） (2023-11-10T10:03:49Z)
Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文参考訳（メタデータ） (2023-09-06T05:19:41Z)
Modeling Information Change in Science Communication with Semantically Matched Paraphrases [50.67030449927206]
SPICEDは、情報変化の度合いに注釈を付けた科学的な発見の最初のパラフレーズデータセットである。 SPICEDには、ニュース記事、ソーシャルメディアの議論、オリジナル論文の全文から抽出された6000の科学的発見ペアが含まれている。 SPICEDで訓練されたモデルは、実世界の科学的主張の事実チェックのための証拠検索において下流のパフォーマンスを改善する。
論文参考訳（メタデータ） (2022-10-24T07:44:38Z)
Exploring Lexical Irregularities in Hypothesis-Only Models of Natural Language Inference [5.283529004179579]
自然言語推論(NLI)またはテキスト関連認識(RTE)は、文のペア間の関係を予測するタスクです。包含を理解するモデルは前提と仮説の両方をエンコードするべきである。 Poliakらによる実験。仮説でのみ観察されたパターンに対するこれらのモデルの強い好みを明らかにした。
論文参考訳（メタデータ） (2021-01-19T01:08:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。