論文の概要: WildSci: Advancing Scientific Reasoning from In-the-Wild Literature
- arxiv url: http://arxiv.org/abs/2601.05567v1
- Date: Fri, 09 Jan 2026 06:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.868267
- Title: WildSci: Advancing Scientific Reasoning from In-the-Wild Literature
- Title(参考訳): WildSci: 科学的な推論を促進する
- Authors: Tengxiao Liu, Deepak Nathani, Zekun Li, Kevin Yang, William Yang Wang,
- Abstract要約: 我々は、ピアレビューされた文献から自動的に合成されるドメイン固有の科学質問の新しいデータセットWildSciを紹介する。
複雑な科学的推論タスクを複数選択形式でフレーミングすることにより、明確に定義された報酬信号によるスケーラブルなトレーニングを可能にする。
一連の科学的ベンチマークの実験は、我々のデータセットとアプローチの有効性を実証している。
- 参考スコア(独自算出の注目度): 50.16160754134139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in large language model (LLM) reasoning has focused on domains like mathematics and coding, where abundant high-quality data and objective evaluation metrics are readily available. In contrast, progress in LLM reasoning models remains limited in scientific domains such as medicine and materials science due to limited dataset coverage and the inherent complexity of open-ended scientific questions. To address these challenges, we introduce WildSci, a new dataset of domain-specific science questions automatically synthesized from peer-reviewed literature, covering 9 scientific disciplines and 26 subdomains. By framing complex scientific reasoning tasks in a multiple-choice format, we enable scalable training with well-defined reward signals. We further apply reinforcement learning to finetune models on these data and analyze the resulting training dynamics, including domain-specific performance changes, response behaviors, and generalization trends. Experiments on a suite of scientific benchmarks demonstrate the effectiveness of our dataset and approach. We release WildSci to enable scalable and sustainable research in scientific reasoning, available at https://huggingface.co/datasets/JustinTX/WildSci.
- Abstract(参考訳): 大規模言語モデル(LLM)推論の最近の進歩は、豊富な高品質のデータと客観的評価指標が容易に利用できる数学やコーディングのような領域に焦点を当てている。
対照的に、LLM推論モデルの進歩は、限られたデータセットカバレッジとオープンエンドの科学的問題の本質的な複雑さのために、医学や材料科学のような科学分野に限られている。
これらの課題に対処するために、9つの科学分野と26のサブドメインをカバーする、ピアレビューされた文献から自動的に合成される、ドメイン固有の科学質問のデータセットであるWildSciを紹介した。
複雑な科学的推論タスクを複数選択形式でフレーミングすることにより、明確に定義された報酬信号によるスケーラブルなトレーニングを可能にする。
さらに、これらのデータに基づくモデルの微調整に強化学習を適用し、ドメイン固有のパフォーマンス変化、応答挙動、一般化トレンドを含むトレーニングのダイナミクスを解析する。
一連の科学的ベンチマークの実験は、我々のデータセットとアプローチの有効性を実証している。
WildSciは、科学的推論におけるスケーラブルで持続可能な研究を可能にするために、https://huggingface.co/datasets/JustinTX/WildSciで公開しています。
関連論文リスト
- Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.3527268311731]
PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。
深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。
私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
論文 参考訳(メタデータ) (2025-12-18T12:44:36Z) - Evaluating Large Language Models in Scientific Discovery [91.732562776782]
大規模言語モデル (LLMs) は科学研究にますます応用されてきているが、科学ベンチマークでは非文脈化された知識を探索している。
生物, 化学, 材料, 物理にまたがるLSMを評価するシナリオグラウンドベンチマークを提案する。
このフレームワークは、(i)シナリオタイドアイテムの質問レベル精度と(ii)プロジェクトレベルのパフォーマンスの2つのレベルでモデルを評価する。
論文 参考訳(メタデータ) (2025-12-17T16:20:03Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - SciVid: Cross-Domain Evaluation of Video Models in Scientific Applications [63.92604046592333]
ビデオファウンデーションモデル(FM)は、汎用ドメインに依存しないアプローチとしてかなりの可能性を秘めている。
SciVidは、医療コンピュータビジョン、動物行動、天気予報の5つのタスクからなるベンチマークである。
簡単なトレーニング可能な読み出しモジュールを用いて6つの主要なViFMをSciVidに適用し、強力なベースラインを確立し、効果的な転送学習の可能性を示す。
論文 参考訳(メタデータ) (2025-07-04T13:48:12Z) - BLADE: Benchmarking Language Model Agents for Data-Driven Science [21.682416167339635]
プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。
本稿では,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEについて述べる。
論文 参考訳(メタデータ) (2024-08-19T02:59:35Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [97.31347312130119]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning)は、トレーニングと評価のための137K命令フォローインスタンスのデータセットで、54のタスクをカバーする。
これらのタスクは、情報抽出、要約、質問応答、クレーム検証、分類の5つの中核的な科学文献理解能力にまたがる。
SciRIFFは、さまざまな科学分野にわたる研究文献から情報を抽出し、合成するための、完全に専門家によって書かれた高品質な命令追跡データセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - An Interdisciplinary Outlook on Large Language Models for Scientific
Research [3.4108358650013573]
本稿では,異なる学問分野におけるLarge Language Models(LLM)の機能と制約について述べる。
本稿では, LLM が学術調査の強化を図り, 大量の出版物を要約することで, 文献レビューの促進などの具体的な事例を提示する。
LLMが直面する課題には、広範囲で偏見のあるデータセットへの依存や、それらの使用から生じる潜在的な倫理的ジレンマが含まれる。
論文 参考訳(メタデータ) (2023-11-03T19:41:09Z) - GeSS: Benchmarking Geometric Deep Learning under Scientific Applications with Distribution Shifts [37.00741148951341]
分散シフトを伴う科学シナリオにおけるGDLモデルの性能評価のためのベンチマークであるGeSSを提案する。
評価データセットは, 粒子物理学, 材料科学, 生化学まで多様な科学領域を網羅し, 分布シフトの幅広い範囲をカプセル化している。
ベンチマークの結果,30の異なる実験環境が得られ,それぞれに3つのGDLバックボーンと11の学習アルゴリズムが評価された。
論文 参考訳(メタデータ) (2023-10-12T19:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。