論文の概要: PLLaMa: An Open-source Large Language Model for Plant Science
- arxiv url: http://arxiv.org/abs/2401.01600v1
- Date: Wed, 3 Jan 2024 08:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 15:01:10.243279
- Title: PLLaMa: An Open-source Large Language Model for Plant Science
- Title(参考訳): PLLaMa: 植物科学のためのオープンソースの大規模言語モデル
- Authors: Xianjun Yang, Junfeng Gao, Wenxin Xue, Erik Alexandersson
- Abstract要約: 本稿ではLLaMa-2から進化した大規模言語モデルを提案する。
植物科学に関する150万以上の記事を含む包括的なデータベースで拡張されています。
植物と農業に関する特定のデータセットを含む最初の試験では、aMaが植物科学に関連するトピックの理解を大幅に改善することが示された。
- 参考スコア(独自算出の注目度): 10.037777633514123
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have exhibited remarkable capabilities in
understanding and interacting with natural language across various sectors.
However, their effectiveness is limited in specialized areas requiring high
accuracy, such as plant science, due to a lack of specific expertise in these
fields. This paper introduces PLLaMa, an open-source language model that
evolved from LLaMa-2. It's enhanced with a comprehensive database, comprising
more than 1.5 million scholarly articles in plant science. This development
significantly enriches PLLaMa with extensive knowledge and proficiency in plant
and agricultural sciences. Our initial tests, involving specific datasets
related to plants and agriculture, show that PLLaMa substantially improves its
understanding of plant science-related topics. Moreover, we have formed an
international panel of professionals, including plant scientists, agricultural
engineers, and plant breeders. This team plays a crucial role in verifying the
accuracy of PLLaMa's responses to various academic inquiries, ensuring its
effective and reliable application in the field. To support further research
and development, we have made the model's checkpoints and source codes
accessible to the scientific community. These resources are available for
download at \url{https://github.com/Xianjun-Yang/PLLaMa}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な分野にわたる自然言語の理解と相互作用において顕著な能力を示した。
しかし、これらの分野の専門知識が不足しているため、植物科学などの精度の高い分野において有効性は限られている。
本稿ではLLaMa-2から進化したオープンソースの言語モデルPLLaMaを紹介する。
植物科学に関する150万以上の学術論文を含む包括的なデータベースで拡張されている。
この開発はPLLaMaを植物科学と農業科学の幅広い知識と熟練度で大いに豊かにしている。
植物および農業に関する特定のデータセットを含む初回試験では,PLLaMaが植物科学関連トピックの理解を大幅に改善することが示された。
さらに、我々は、植物科学者、農業技術者、植物育種者を含む専門家の国際パネルを結成した。
このチームはPLLaMaの様々な学術的問い合わせに対する応答の正確性を検証する上で重要な役割を担い、この分野における有効かつ信頼性の高い応用を確実にする。
さらなる研究と開発を支援するために、我々はモデルのチェックポイントとソースコードを科学コミュニティにアクセス可能にしました。
これらのリソースは \url{https://github.com/Xianjun-Yang/PLLaMa} でダウンロードできる。
関連論文リスト
- Integrating Chemistry Knowledge in Large Language Models via Prompt Engineering [2.140221068402338]
本稿では,科学領域における大規模言語モデル(LLM)の性能向上を目的として,ドメイン固有の知識の統合について検討する。
ベンチマークデータセットは、小さな分子の複雑な物理化学的性質、薬理学の薬物性、酵素や結晶材料の機能的特性に適合する。
提案したドメイン知識組み込みのプロンプトエンジニアリング手法は,従来のプロンプトエンジニアリング手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-04-22T16:55:44Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [51.58302921340358]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Scientific Large Language Models: A Survey on Biological & Chemical
Domains [45.873156812250514]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。
LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。
AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文 参考訳(メタデータ) (2024-01-26T05:33:34Z) - GeoGalactica: A Scientific Large Language Model in Geoscience [95.15911521220052]
大規模言語モデル(LLM)は、自然言語処理(NLP)における幅広いタスクを解く一般的な知識と能力で大きな成功を収めている。
我々は、LLMを地学に特化させ、さらに、地学の膨大なテキストでモデルを事前訓練し、また、カスタム収集した指導チューニングデータセットで得られたモデルを教師付き微調整(SFT)する。
我々はGeoGalacticaを65億のトークンを含む地球科学関連のテキストコーパスで訓練し、最大の地球科学固有のテキストコーパスとして保存する。
次に、100万対の命令チューニングでモデルを微調整する。
論文 参考訳(メタデータ) (2023-12-31T09:22:54Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - MechGPT, a language-based strategy for mechanics and materials modeling
that connects knowledge across scales, disciplines and modalities [0.0]
我々は,Large Language Model (LLM) を用いて,質問応答対を原料から抽出し,微調整する。
得られたMechGPT LLM基盤モデルは、知識検索、様々な言語タスク、仮説生成、異なる領域にわたる知識の接続能力を調べるために、一連の計算実験で使用される。
論文 参考訳(メタデータ) (2023-10-16T14:29:35Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - Large Language Models and Foundation Models in Smart Agriculture: Basics, Opportunities, and Challenges [14.29575512262016]
FMとしても知られる大規模な事前学習モデルは、言語、ビジョン、意思決定タスクにおいて顕著な成功を収めている。
その実証された効果と大きな潜在能力にもかかわらず、農業AIにFMを適用するという調査はほとんど行われていない。
本研究の目的は、スマート農業分野におけるFMの可能性を探ることである。
論文 参考訳(メタデータ) (2023-08-13T02:59:36Z) - BigScience: A Case Study in the Social Construction of a Multilingual
Large Language Model [11.366450629112459]
BigScience Workshopは、学際研究の1年半にわたる価値駆動型イニシアチブだった。
本稿では,BigScienceの協調研究に焦点をあて,大規模参加研究の課題を振り返る。
論文 参考訳(メタデータ) (2022-12-09T16:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。