論文の概要: A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers
- arxiv url: http://arxiv.org/abs/2508.21148v1
- Date: Thu, 28 Aug 2025 18:30:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.847881
- Title: A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers
- Title(参考訳): 科学的大規模言語モデルに関する調査:データ基盤からエージェントフロンティアへ
- Authors: Ming Hu, Chenglong Ma, Wei Li, Wanghan Xu, Jiamin Wu, Jucheng Hu, Tianbin Li, Guohang Zhuang, Jiaqi Liu, Yingzhou Lu, Ying Chen, Chaoyang Zhang, Cheng Tan, Jie Ying, Guocheng Wu, Shujian Gao, Pengcheng Chen, Jiashi Lin, Haitao Wu, Lulu Chen, Fengxiang Wang, Yuanyuan Zhang, Xiangyu Zhao, Feilong Tang, Encheng Su, Junzhi Ning, Xinyao Liu, Ye Du, Changkai Ji, Cheng Tang, Huihui Xu, Ziyang Chen, Ziyan Huang, Jiyao Liu, Pengfei Jiang, Yizhou Wang, Chen Tang, Jianyu Wu, Yuchen Ren, Siyuan Yan, Zhonghua Wang, Zhongxing Xu, Shiyan Su, Shangquan Sun, Runkai Zhao, Zhisheng Zhang, Yu Liu, Fudi Wang, Yuanfeng Ji, Yanzhou Su, Hongming Shan, Chunmei Feng, Jiahao Xu, Jiangtao Yan, Wenhao Tang, Diping Song, Lihao Liu, Yanyan Huang, Lequan Yu, Bin Fu, Shujun Wang, Xiaomeng Li, Xiaowei Hu, Yun Gu, Ben Fei, Zhongying Deng, Benyou Wang, Yuewen Cao, Minjie Shen, Haodong Duan, Jie Xu, Yirong Chen, Fang Yan, Hongxia Hao, Jielan Li, Jiajun Du, Yanbo Wang, Imran Razzak, Chi Zhang, Lijun Wu, Conghui He, Zhaohui Lu, Jinhai Huang, Yihao Liu, Fenghua Ling, Yuqiang Li, Aoran Wang, Qihao Zheng, Nanqing Dong, Tianfan Fu, Dongzhan Zhou, Yan Lu, Wenlong Zhang, Jin Ye, Jianfei Cai, Wanli Ouyang, Yu Qiao, Zongyuan Ge, Shixiang Tang, Junjun He, Chunfeng Song, Lei Bai, Bowen Zhou,
- Abstract要約: 科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
- 参考スコア(独自算出の注目度): 221.34650992288505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific Large Language Models (Sci-LLMs) are transforming how knowledge is represented, integrated, and applied in scientific research, yet their progress is shaped by the complex nature of scientific data. This survey presents a comprehensive, data-centric synthesis that reframes the development of Sci-LLMs as a co-evolution between models and their underlying data substrate. We formulate a unified taxonomy of scientific data and a hierarchical model of scientific knowledge, emphasizing the multimodal, cross-scale, and domain-specific challenges that differentiate scientific corpora from general natural language processing datasets. We systematically review recent Sci-LLMs, from general-purpose foundations to specialized models across diverse scientific disciplines, alongside an extensive analysis of over 270 pre-/post-training datasets, showing why Sci-LLMs pose distinct demands -- heterogeneous, multi-scale, uncertainty-laden corpora that require representations preserving domain invariance and enabling cross-modal reasoning. On evaluation, we examine over 190 benchmark datasets and trace a shift from static exams toward process- and discovery-oriented assessments with advanced evaluation protocols. These data-centric analyses highlight persistent issues in scientific data development and discuss emerging solutions involving semi-automated annotation pipelines and expert validation. Finally, we outline a paradigm shift toward closed-loop systems where autonomous agents based on Sci-LLMs actively experiment, validate, and contribute to a living, evolving knowledge base. Collectively, this work provides a roadmap for building trustworthy, continually evolving artificial intelligence (AI) systems that function as a true partner in accelerating scientific discovery.
- Abstract(参考訳): 科学大言語モデル (Sci-LLMs) は、科学研究において知識の表現、統合、適用方法を変えつつあるが、その進歩は科学データの複雑な性質によって形成されている。
本調査では,Sci-LLMの開発をモデルとその基盤となるデータ基板間の共進化として再編成する,包括的でデータ中心の合成について述べる。
我々は、科学データの統一分類法と、科学知識の階層モデルを定式化し、一般的な自然言語処理データセットと科学コーパスを区別するマルチモーダル、クロススケール、ドメイン固有の課題を強調した。
我々は、最近のSci-LLMを、汎用的な基礎から、様々な科学分野にまたがる特殊なモデルまで、体系的にレビューし、270以上の事前/後訓練データセットを広範囲に分析し、なぜSci-LLMが異質で、大規模で、不確実なコーパスを、ドメインの不変性を保ち、相互モーダル推論を可能にするのかを示した。
評価では,190以上のベンチマークデータセットを調べ,静的試験から高度な評価プロトコルを用いたプロセス指向および発見指向評価へ移行した。
これらのデータ中心の分析は、科学データ開発における永続的な問題を強調し、半自動アノテーションパイプラインと専門家による検証を含む新しいソリューションについて議論する。
最後に、Sci-LLMをベースとした自律エージェントを積極的に実験し、検証し、進化した知識ベースに貢献する、クローズドループシステムへのパラダイムシフトについて概説する。
この研究は、科学的発見を加速する真のパートナーとして機能する信頼できる、継続的な進化を続ける人工知能(AI)システムを構築するためのロードマップを提供する。
関連論文リスト
- Dynamic Knowledge Exchange and Dual-diversity Review: Concisely Unleashing the Potential of a Multi-Agent Research Team [53.38438460574943]
IDVSCIは、大規模言語モデル(LLM)上に構築されたマルチエージェントフレームワークである。
動的知識交換機構とデュアルダイバーシティ・レビュー・パラダイムという2つの重要なイノベーションが組み込まれている。
結果は、IDVSCIが2つのデータセットで常に最高のパフォーマンスを達成していることを示している。
論文 参考訳(メタデータ) (2025-06-23T07:12:08Z) - Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents [11.74019905854637]
大規模言語モデル(LLM)は、重要なタスクを自動化する科学的エージェントへと進化している。
汎用LLMとは異なり、特殊エージェントはドメイン固有の知識、高度なツールセット、堅牢な検証メカニズムを統合する。
一般的なエージェントと異なる理由と、さまざまな科学分野の研究を進める方法を強調します。
論文 参考訳(メタデータ) (2025-03-31T13:11:28Z) - BLADE: Benchmarking Language Model Agents for Data-Driven Science [18.577658530714505]
プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。
本稿では,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEについて述べる。
論文 参考訳(メタデータ) (2024-08-19T02:59:35Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - When Geoscience Meets Foundation Models: Towards General Geoscience Artificial Intelligence System [6.445323648941926]
地球科学基礎モデル(Geoscience foundation model, GFMs)は、地球系の力学のシミュレーションと理解を強化するために、広範な学際データを統合するパラダイムシフトソリューションである。
GFMのユニークな長所は、フレキシブルなタスク仕様、多様な入出力能力、マルチモーダルな知識表現である。
このレビューは、先進的なAI技術と地球科学の交差点における未解決の機会を強調した、新興の地球科学研究パラダイムの包括的概要を提供する。
論文 参考訳(メタデータ) (2023-09-13T08:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。