論文の概要: WildSci: Advancing Scientific Reasoning from In-the-Wild Literature
- arxiv url: http://arxiv.org/abs/2601.05567v1
- Date: Fri, 09 Jan 2026 06:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.868267
- Title: WildSci: Advancing Scientific Reasoning from In-the-Wild Literature
- Title(参考訳): WildSci: 科学的な推論を促進する
- Authors: Tengxiao Liu, Deepak Nathani, Zekun Li, Kevin Yang, William Yang Wang,
- Abstract要約: 我々は、ピアレビューされた文献から自動的に合成されるドメイン固有の科学質問の新しいデータセットWildSciを紹介する。
複雑な科学的推論タスクを複数選択形式でフレーミングすることにより、明確に定義された報酬信号によるスケーラブルなトレーニングを可能にする。
一連の科学的ベンチマークの実験は、我々のデータセットとアプローチの有効性を実証している。
- 参考スコア(独自算出の注目度): 50.16160754134139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in large language model (LLM) reasoning has focused on domains like mathematics and coding, where abundant high-quality data and objective evaluation metrics are readily available. In contrast, progress in LLM reasoning models remains limited in scientific domains such as medicine and materials science due to limited dataset coverage and the inherent complexity of open-ended scientific questions. To address these challenges, we introduce WildSci, a new dataset of domain-specific science questions automatically synthesized from peer-reviewed literature, covering 9 scientific disciplines and 26 subdomains. By framing complex scientific reasoning tasks in a multiple-choice format, we enable scalable training with well-defined reward signals. We further apply reinforcement learning to finetune models on these data and analyze the resulting training dynamics, including domain-specific performance changes, response behaviors, and generalization trends. Experiments on a suite of scientific benchmarks demonstrate the effectiveness of our dataset and approach. We release WildSci to enable scalable and sustainable research in scientific reasoning, available at https://huggingface.co/datasets/JustinTX/WildSci.
- Abstract(参考訳): 大規模言語モデル(LLM)推論の最近の進歩は、豊富な高品質のデータと客観的評価指標が容易に利用できる数学やコーディングのような領域に焦点を当てている。
対照的に、LLM推論モデルの進歩は、限られたデータセットカバレッジとオープンエンドの科学的問題の本質的な複雑さのために、医学や材料科学のような科学分野に限られている。
これらの課題に対処するために、9つの科学分野と26のサブドメインをカバーする、ピアレビューされた文献から自動的に合成される、ドメイン固有の科学質問のデータセットであるWildSciを紹介した。
複雑な科学的推論タスクを複数選択形式でフレーミングすることにより、明確に定義された報酬信号によるスケーラブルなトレーニングを可能にする。
さらに、これらのデータに基づくモデルの微調整に強化学習を適用し、ドメイン固有のパフォーマンス変化、応答挙動、一般化トレンドを含むトレーニングのダイナミクスを解析する。
一連の科学的ベンチマークの実験は、我々のデータセットとアプローチの有効性を実証している。
WildSciは、科学的推論におけるスケーラブルで持続可能な研究を可能にするために、https://huggingface.co/datasets/JustinTX/WildSciで公開しています。
関連論文リスト
- A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [97.31347312130119]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning)は、トレーニングと評価のための137K命令フォローインスタンスのデータセットで、54のタスクをカバーする。
これらのタスクは、情報抽出、要約、質問応答、クレーム検証、分類の5つの中核的な科学文献理解能力にまたがる。
SciRIFFは、さまざまな科学分野にわたる研究文献から情報を抽出し、合成するための、完全に専門家によって書かれた高品質な命令追跡データセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - An Interdisciplinary Outlook on Large Language Models for Scientific
Research [3.4108358650013573]
本稿では,異なる学問分野におけるLarge Language Models(LLM)の機能と制約について述べる。
本稿では, LLM が学術調査の強化を図り, 大量の出版物を要約することで, 文献レビューの促進などの具体的な事例を提示する。
LLMが直面する課題には、広範囲で偏見のあるデータセットへの依存や、それらの使用から生じる潜在的な倫理的ジレンマが含まれる。
論文 参考訳(メタデータ) (2023-11-03T19:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。