論文の概要: HoneyBee: Progressive Instruction Finetuning of Large Language Models
for Materials Science
- arxiv url: http://arxiv.org/abs/2310.08511v1
- Date: Thu, 12 Oct 2023 17:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 08:34:02.895852
- Title: HoneyBee: Progressive Instruction Finetuning of Large Language Models
for Materials Science
- Title(参考訳): HoneyBee: 材料科学のための大規模言語モデルのプログレッシブなインストラクションファインタニング
- Authors: Yu Song, Santiago Miret, Huan Zhang, Bang Liu
- Abstract要約: 材料科学における信頼できるデータキュレーションのための指導に基づくプロセスを提案する(MatSci-Instruct)。
次に、材料科学を対象としたLLaMa言語モデル(HoneyBee)を微調整する。
- 参考スコア(独自算出の注目度): 36.44466740289109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an instruction-based process for trustworthy data curation in
materials science (MatSci-Instruct), which we then apply to finetune a
LLaMa-based language model targeted for materials science (HoneyBee).
MatSci-Instruct helps alleviate the scarcity of relevant, high-quality
materials science textual data available in the open literature, and HoneyBee
is the first billion-parameter language model specialized to materials science.
In MatSci-Instruct we improve the trustworthiness of generated data by
prompting multiple commercially available large language models for generation
with an Instructor module (e.g. Chat-GPT) and verification from an independent
Verifier module (e.g. Claude). Using MatSci-Instruct, we construct a dataset of
multiple tasks and measure the quality of our dataset along multiple
dimensions, including accuracy against known facts, relevance to materials
science, as well as completeness and reasonableness of the data. Moreover, we
iteratively generate more targeted instructions and instruction-data in a
finetuning-evaluation-feedback loop leading to progressively better performance
for our finetuned HoneyBee models. Our evaluation on the MatSci-NLP benchmark
shows HoneyBee's outperformance of existing language models on materials
science tasks and iterative improvement in successive stages of
instruction-data refinement. We study the quality of HoneyBee's language
modeling through automatic evaluation and analyze case studies to further
understand the model's capabilities and limitations. Our code and relevant
datasets are publicly available at
\url{https://github.com/BangLab-UdeM-Mila/NLP4MatSci-HoneyBee}.
- Abstract(参考訳): 本研究では,材料科学(MatSci-Instruct)における信頼に値するデータキュレーションのための命令ベースプロセスを提案する。
MatSci-Instructは、オープン文学で利用可能な、関連性のある高品質の材料科学テキストデータの不足を軽減するのに役立ち、HoneyBeeは、材料科学に特化した最初の10億パラメータ言語モデルである。
matsci-instructでは、インストラクターモジュール(chat-gptなど)で複数の商用言語モデルを作成し、独立した検証モジュール(claudeなど)から検証することで、生成データの信頼性を向上させる。
MatSci-Instructを用いて、複数のタスクのデータセットを構築し、既知の事実に対する精度、材料科学との関係、データの完全性、合理的性など、複数の次元に沿ってデータセットの品質を測定する。
さらに,よりターゲットとした命令と命令データを反復的に生成することで,ミツバチモデルの性能を段階的に向上させる。
MatSci-NLPベンチマークによる評価は,HoneyBeeの教材科学における既存言語モデルの性能向上と,命令データの改良の継続段階における反復的改善を示す。
我々は,ミツバチの言語モデルの品質を自動評価し,ケーススタディを分析し,モデルの能力と限界をさらに理解する。
私たちのコードと関連するデータセットは、 \url{https://github.com/BangLab-UdeM-Mila/NLP4MatSci-HoneyBee}で公開されています。
関連論文リスト
- Cookbook: A framework for improving LLM generative abilities via programmatic data generating templates [57.29125360837203]
Cookbookはランダムトークン上の単純なパターンからなるトレーニングデータを生成するフレームワークである。
クックブック生成したデータの微調整により,対応するタスクの性能を最大52.7の精度で向上できることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:29:40Z) - HoneyBee: A Scalable Modular Framework for Creating Multimodal Oncology Datasets with Foundational Embedding Models [16.567468717846676]
HoneyBeeは、マルチモーダルオンコロジーデータセットを構築するためのスケーラブルなモジュラーフレームワークである。
生の医療データに欠かせない特徴や関係を捉えた埋め込みを生成する。
HoneyBeeは、現在進行中のオープンソース活動であり、コード、データセット、モデルは、プロジェクトリポジトリで利用可能である。
論文 参考訳(メタデータ) (2024-05-13T04:35:14Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Materials Informatics Transformer: A Language Model for Interpretable
Materials Properties Prediction [6.349503549199403]
本稿では,材料特性予測のための材料情報変換器(MatInFormer)について紹介する。
具体的には、関連する空間群情報のトークン化を通じて結晶学の文法を学習する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-30T18:34:55Z) - Self-Alignment with Instruction Backtranslation [162.02529653768096]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。
我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文 参考訳(メタデータ) (2023-08-11T17:47:54Z) - MatSci-NLP: Evaluating Scientific Language Models on Materials Science
Language Tasks Using Text-to-Schema Modeling [13.30198968869312]
MatSci-NLPは、自然言語処理(NLP)モデルの性能を評価するためのベンチマークである。
我々は,7つの異なるNLPタスクを含む,公開資料科学テキストデータからベンチマークを構築した。
本研究では,様々な理科テキストコーパスで事前学習したBERTモデルについて検討し,事前学習戦略が教材理科テキストの理解に与える影響について考察した。
論文 参考訳(メタデータ) (2023-05-14T22:01:24Z) - MatSciBERT: A Materials Domain Language Model for Text Mining and
Information Extraction [13.924666106089425]
MatSciBERTは、材料領域で出版された科学文献の大規模なコーパスに基づいて訓練された言語モデルである。
MatSciBERTは,3つの下流タスク,すなわち抽象的分類,名前付きエンティティ認識,関係抽出において,SciBERTよりも優れていることを示す。
また,MatchSciBERTの材料領域における情報抽出への応用についても論じる。
論文 参考訳(メタデータ) (2021-09-30T17:35:02Z) - CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。
我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。
モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文 参考訳(メタデータ) (2020-02-19T13:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。