論文の概要: SciInstruct: a Self-Reflective Instruction Annotated Dataset for Training Scientific Language Models
- arxiv url: http://arxiv.org/abs/2401.07950v3
- Date: Mon, 18 Nov 2024 05:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:52.268749
- Title: SciInstruct: a Self-Reflective Instruction Annotated Dataset for Training Scientific Language Models
- Title(参考訳): SciInstruct:科学言語モデルの学習のための自己表現型指導アノテーションデータセット
- Authors: Dan Zhang, Ziniu Hu, Sining Zhoubian, Zhengxiao Du, Kaiyu Yang, Zihan Wang, Yisong Yue, Yuxiao Dong, Jie Tang,
- Abstract要約: 我々はSciInstructを紹介した。SciInstructは、大学レベルの科学的推論が可能な科学言語モデルを訓練するための科学指導スイートである。
我々は、物理学、化学、数学、公式な証明を含む多種多様な高品質なデータセットをキュレートした。
SciInstructの有効性を検証するため、SciInstruct、すなわちChatGLM3(6Bと32B)、Llama3-8B-Instruct、Mistral-7B: MetaMathを用いて言語モデルを微調整した。
- 参考スコア(独自算出の注目度): 57.96527452844273
- License:
- Abstract: Large Language Models (LLMs) have shown promise in assisting scientific discovery. However, such applications are currently limited by LLMs' deficiencies in understanding intricate scientific concepts, deriving symbolic equations, and solving advanced numerical calculations. To bridge these gaps, we introduce SciInstruct, a suite of scientific instructions for training scientific language models capable of college-level scientific reasoning. Central to our approach is a novel self-reflective instruction annotation framework to address the data scarcity challenge in the science domain. This framework leverages existing LLMs to generate step-by-step reasoning for unlabelled scientific questions, followed by a process of self-reflective critic-and-revise. Applying this framework, we curated a diverse and high-quality dataset encompassing physics, chemistry, math, and formal proofs. We analyze the curated SciInstruct from multiple interesting perspectives (e.g., domain, scale, source, question type, answer length, etc.). To verify the effectiveness of SciInstruct, we fine-tuned different language models with SciInstruct, i.e., ChatGLM3 (6B and 32B), Llama3-8B-Instruct, and Mistral-7B: MetaMath, enhancing their scientific and mathematical reasoning capabilities, without sacrificing the language understanding capabilities of the base model. We release all codes and SciInstruct at https://github.com/THUDM/SciGLM.
- Abstract(参考訳): LLM(Large Language Models)は、科学的な発見を支援することを約束している。
しかしながら、そのような応用は、複雑な科学概念の理解、記号方程式の導出、高度な数値計算の解法におけるLLMの欠陥によって制限されている。
これらのギャップを埋めるために、大学レベルの科学的推論が可能な科学言語モデルを訓練するための一連の科学的なインストラクションであるSciInstructを紹介した。
我々のアプローチの中心は、科学領域におけるデータ不足問題に対処するための、新しい自己表現型命令アノテーションフレームワークである。
このフレームワークは、既存のLCMを活用して、未解決の科学的問題に対するステップバイステップの推論を生成し、その後、自己反省的な批判と修正のプロセスが続く。
この枠組みを適用して、物理学、化学、数学、公式な証明を含む多種多様な高品質なデータセットをキュレートした。
複数の興味深い視点(例えば、ドメイン、スケール、ソース、質問タイプ、回答の長さなど)から、キュレートされたSciInstructを分析します。
SciInstructの有効性を検証するために,SciInstruct,すなわちChatGLM3 (6Bおよび32B), Llama3-8B-Instruct, Mistral-7B: MetaMathを用いて,基礎モデルの言語理解能力を犠牲にすることなく,その科学的および数学的推論能力を向上した。
すべてのコードとSciInstructをhttps://github.com/THUDM/SciGLM.comでリリースします。
関連論文リスト
- Artificial Scientific Discovery [5.241773225218436]
この論文はAlphaGoからChatGPTにまたがって、人工科学者のビジョンを実現するために必要な概念を検証している。
人工科学者は、その発見を説明するために使用される言語の独自の解釈を開発する必要がある。
この視点は、現代のマルチモーダルモデルをインタプリタと見なし、解釈可能で費用対効果の高いCLIPのようなモデルを構築するための新しい方法を考案することにつながります。
論文 参考訳(メタデータ) (2024-11-18T15:51:45Z) - Improving Scientific Hypothesis Generation with Knowledge Grounded Large Language Models [20.648157071328807]
大規模言語モデル(LLM)は、既存の知識を分析することによって、新しい研究の方向性を特定することができる。
LLMは幻覚を発生させる傾向がある。
我々は,知識グラフから外部構造的知識を統合することで,LLM仮説の生成を促進するシステムKG-CoIを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:50:00Z) - Learning Beyond Pattern Matching? Assaying Mathematical Understanding in LLMs [58.09253149867228]
本稿では,LLMのドメイン知識を,問題解決に必要な数学的スキルの理解を通じて評価する。
汎用科学アシスタントとしてLLMを用いることで, LLMの確率分布の変化を評価するためにtextitNTKEvalを提案する。
系統的な分析では、文脈内学習中にドメイン理解の証拠が見つかる。
ある命令チューニングは、異なるデータでのトレーニングに関係なく、同様のパフォーマンス変化をもたらし、異なるスキルに対するドメイン理解の欠如を示唆している。
論文 参考訳(メタデータ) (2024-05-24T12:04:54Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z) - SciAgent: Tool-augmented Language Models for Scientific Reasoning [129.51442677710452]
ツール強化科学推論という新しいタスク設定を導入する。
この設定は、スケーラブルなツールセットでLarge Language Modelsを補完する。
約3万のサンプルと約6,000のツールを含むツール拡張トレーニングコーパスであるMathFuncを構築した。
MathFunc上に構築したSciAgentは,科学的な問題解決のためのツールを検索し,理解し,必要に応じて利用する。
論文 参考訳(メタデータ) (2024-02-18T04:19:44Z) - Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。
LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。
AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文 参考訳(メタデータ) (2024-01-26T05:33:34Z) - Large Language Models for Scientific Synthesis, Inference and
Explanation [56.41963802804953]
大規模言語モデルがどのように科学的合成、推論、説明を行うことができるかを示す。
我々は,この「知識」を科学的文献から合成することで,大きな言語モデルによって強化できることを示す。
このアプローチは、大きな言語モデルが機械学習システムの予測を説明することができるというさらなる利点を持っている。
論文 参考訳(メタデータ) (2023-10-12T02:17:59Z) - DARWIN Series: Domain Specific Large Language Models for Natural Science [20.864698325126735]
本稿では,物理,化学,物質科学を中心に,自然科学に適したLLMのシリーズであるDARWINを紹介する。
我々は6万以上の命令データポイントを用いてモデルを微調整し、事実の正しさを強調した。
DARWINシリーズは、様々な科学的タスクに関する最先端の結果を達成するだけでなく、クローズドソースAIモデルへの依存を減少させる。
論文 参考訳(メタデータ) (2023-08-25T01:40:48Z) - SCITUNE: Aligning Large Language Models with Scientific Multimodal
Instructions [0.7264378254137809]
本研究では,SciTuneを,LLMが科学的マルチモーダル命令に従う能力を向上させるためのチューニングフレームワークとして提示する。
提案手法をテストするために,人間による科学的指導チューニングデータセットを使用し,大規模マルチモーダルモデルLLaMA-SciTuneを訓練する。
マシン生成データのみで微調整されたモデルと比較して、LLaMA-SciTuneは平均的およびScienceQAベンチマーク上の多くのサブカテゴリで人のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2023-07-03T16:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。