論文の概要: DARWIN Series: Domain Specific Large Language Models for Natural Science
- arxiv url: http://arxiv.org/abs/2308.13565v1
- Date: Fri, 25 Aug 2023 01:40:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 20:25:34.840039
- Title: DARWIN Series: Domain Specific Large Language Models for Natural Science
- Title(参考訳): DARWINシリーズ:自然科学のためのドメイン固有大言語モデル
- Authors: Tong Xie, Yuwei Wan, Wei Huang, Zhenyu Yin, Yixuan Liu, Shaozhou Wang,
Qingyuan Linghu, Chunyu Kit, Clara Grazian, Wenjie Zhang, Imran Razzak, Bram
Hoex
- Abstract要約: 本稿では,物理,化学,物質科学を中心に,自然科学に適したLLMのシリーズであるDARWINを紹介する。
我々は6万以上の命令データポイントを用いてモデルを微調整し、事実の正しさを強調した。
DARWINシリーズは、様々な科学的タスクに関する最先端の結果を達成するだけでなく、クローズドソースAIモデルへの依存を減少させる。
- 参考スコア(独自算出の注目度): 20.864698325126735
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Emerging tools bring forth fresh approaches to work, and the field of natural
science is no different. In natural science, traditional manual, serial, and
labour-intensive work is being augmented by automated, parallel, and iterative
processes driven by artificial intelligence-based experimental automation and
more. To add new capabilities in natural science, enabling the acceleration and
enrichment of automation of the discovery process, we present DARWIN, a series
of tailored LLMs for natural science, mainly in physics, chemistry, and
material science. This series relies on open-source LLM, incorporating
structured and unstructured scientific knowledge from public datasets and
literature. We fine-tuned the models using over 60,000 instruction data points,
emphasizing factual correctness. During the fine-tuning, we introduce the
Scientific Instruction Generation (SIG) model, automating instruction
generation from scientific texts. This eliminates the need for manual
extraction or domain-specific knowledge graphs and efficiently injects
scientific knowledge into the model. We also explore multi-task training
strategies, revealing interconnections between scientific tasks. DARWIN series
not only achieves state-of-the-art results on various scientific tasks but also
diminishes reliance on closed-source AI models. Our research showcases the
ability of LLM in the scientific domain, with the overarching goal of fostering
prosperity within the broader AI for science community.
- Abstract(参考訳): 新たなツールによって新しいアプローチが実現し、自然科学の分野も変わりません。
自然科学において、従来のマニュアル、シリアル、労働集約的な作業は、人工知能ベースの実験自動化などによって駆動される自動化、並列、反復的なプロセスによって強化されている。
自然科学に新たな機能を追加し,発見プロセスの自動化の促進と強化を可能にするため,本研究では,物理,化学,物質科学を中心に,自然科学に適したLLMのシリーズであるDARWINを提案する。
このシリーズはオープンソースのLLMに依存しており、公開データセットや文献から構造化された、構造化されていない科学知識を取り入れている。
我々は6万以上の命令データポイントを用いてモデルを微調整し、事実の正しさを強調した。
微調整の際には,学術テキストからの指導生成を自動化するSIG(Scientific Instruction Generation)モデルを導入する。
これにより、手動の抽出やドメイン固有の知識グラフの必要性をなくし、効率的にモデルに科学的知識を注入できる。
マルチタスクのトレーニング戦略についても検討し,科学的タスク間の相互関係を明らかにする。
DARWINシリーズは、様々な科学的タスクに関する最先端の結果を達成するだけでなく、クローズドソースのAIモデルへの依存を減らす。
我々の研究は、科学分野におけるLLMの能力を示し、科学コミュニティのための幅広いAIの中で繁栄を育むという、包括的な目標を掲げている。
関連論文リスト
- The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery [14.465756130099091]
本稿では,完全自動科学的発見のための最初の包括的枠組みについて述べる。
我々は、新しい研究アイデアを生成し、コードを書き、実験を実行し、結果を視覚化し、その結果を説明するThe AI Scientistを紹介します。
原則として、このプロセスは、人間の科学コミュニティのように行動しながら、オープンな方法でアイデアを反復的に発展させることができる。
論文 参考訳(メタデータ) (2024-08-12T16:58:11Z) - Knowledge AI: Fine-tuning NLP Models for Facilitating Scientific Knowledge Extraction and Understanding [0.0]
本研究は,Large Language Models (LLMs) の,特定の領域における科学的知識の理解と抽出における有効性について検討する。
トレーニング済みのモデルを採用し、科学領域のデータセットを微調整します。
論文 参考訳(メタデータ) (2024-08-04T01:32:09Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z) - Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。
LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。
AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文 参考訳(メタデータ) (2024-01-26T05:33:34Z) - SciGLM: Training Scientific Language Models with Self-Reflective
Instruction Annotation and Tuning [60.14510984576027]
SciGLMは、大学レベルの科学的推論を行うことができる科学言語モデルのスイートである。
本研究では, 自己回帰的指示アノテーションの枠組みを適用し, 難解な科学的問題に対する段階的推論を生成する。
言語モデルのChatGLMをSciInstructで微調整し、科学的および数学的推論能力を向上した。
論文 参考訳(メタデータ) (2024-01-15T20:22:21Z) - The Future of Fundamental Science Led by Generative Closed-Loop
Artificial Intelligence [67.70415658080121]
機械学習とAIの最近の進歩は、技術革新、製品開発、社会全体を破壊している。
AIは、科学的な実践とモデル発見のための高品質なデータの大規模なデータセットへのアクセスがより困難であるため、基礎科学にはあまり貢献していない。
ここでは、科学的な発見に対するAI駆動、自動化、クローズドループアプローチの側面を調査し、調査する。
論文 参考訳(メタデータ) (2023-07-09T21:16:56Z) - Learning from learning machines: a new generation of AI technology to
meet the needs of science [59.261050918992325]
科学的な発見のためのAIの有用性を高めるための新たな機会と課題を概説する。
産業におけるAIの目標と科学におけるAIの目標の区別は、データ内のパターンを識別することと、データから世界のパターンを発見することとの間に緊張を生じさせる。
論文 参考訳(メタデータ) (2021-11-27T00:55:21Z) - Scientific intuition inspired by machine learning generated hypotheses [2.294014185517203]
私たちは、機械学習モデル自体が得る洞察と知識に焦点を移します。
決定木では, 化学や物理から, ビッグデータから人間の解釈可能な洞察を抽出するために, 勾配増進法を適用した。
数値を超える能力は、機械学習を使って概念理解の発見を加速する扉を開く。
論文 参考訳(メタデータ) (2020-10-27T12:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。