論文の概要: Taiyi: A Bilingual Fine-Tuned Large Language Model for Diverse
Biomedical Tasks
- arxiv url: http://arxiv.org/abs/2311.11608v2
- Date: Tue, 19 Dec 2023 07:18:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 22:14:07.076669
- Title: Taiyi: A Bilingual Fine-Tuned Large Language Model for Diverse
Biomedical Tasks
- Title(参考訳): Taiyi: バイオメディカルタスクのためのバイリンガル微調整大言語モデル
- Authors: Ling Luo, Jinzhong Ning, Yingwen Zhao, Zhijun Wang, Zeyuan Ding, Peng
Chen, Weiru Fu, Qinyu Han, Guangtao Xu, Yunzhi Qiu, Dinghao Pan, Jiru Li, Hao
Li, Wenduo Feng, Senbo Tu, Yuqi Liu, Zhihao Yang, Jian Wang, Yuanyuan Sun,
Hongfei Lin
- Abstract要約: 既存のバイオメディカル大規模言語モデル(LLMs)は、単言語でのバイオメディカル質問応答や会話タスクのパフォーマンス向上に重点を置いている。
多様なバイオメディカルタスクのためのバイリンガル微調整LDMであるTaiyiについて紹介する。
- 参考スコア(独自算出の注目度): 19.091278630792615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective: Most existing fine-tuned biomedical large language models (LLMs)
focus on enhancing performance in monolingual biomedical question answering and
conversation tasks. To investigate the effectiveness of the fine-tuned LLMs on
diverse biomedical NLP tasks in different languages, We present Taiyi, a
bilingual fine-tuned LLM for diverse biomedical tasks. Materials and Methods:
We first curated a comprehensive collection of 140 existing biomedical text
mining datasets (102 English and 38 Chinese datasets) across over 10 task
types. Subsequently, a two-stage strategy is proposed for supervised
fine-tuning to optimize the model performance across varied tasks. Results:
Experimental results on 13 test sets covering named entity recognition,
relation extraction, text classification, question answering tasks demonstrate
that Taiyi achieves superior performance compared to general LLMs. The case
study involving additional biomedical NLP tasks further shows Taiyi's
considerable potential for bilingual biomedical multi-tasking. Conclusion:
Leveraging rich high-quality biomedical corpora and developing effective
fine-tuning strategies can significantly improve the performance of LLMs within
the biomedical domain. Taiyi shows the bilingual multi-tasking capability
through supervised fine-tuning. However, those tasks such as information
extraction that are not generation tasks in nature remain challenging for
LLM-based generative approaches, and they still underperform the conventional
discriminative approaches of smaller language models.
- Abstract(参考訳): 目的: 既存の微調整バイオメディカル大規模言語モデル(LLM)は, 単言語バイオメディカル質問応答や会話タスクの性能向上に重点を置いている。
各種言語における多言語生物医学的NLPタスクに対する微調整LDMの有効性を検討するために,多言語生物医学的タスクのための多言語微調整LDMであるTaiyiを提案する。
Materials and Methods: 10以上のタスクタイプで140の既存の生物医学的テキストマイニングデータセット(102の英語と38の中国語データセット)を総合的に収集した。
その後、教師付き微調整のための2段階戦略を提案し、様々なタスクにおけるモデル性能を最適化する。
結果: 名前付きエンティティ認識, 関係抽出, テキスト分類, 質問応答タスクを含む13種類の実験結果から, タイイが一般LLMよりも優れた性能を示した。
追加のバイオメディカルNLPタスクを含むケーススタディは、タイイのバイリンガルなバイオメディカルマルチタスクの可能性をさらに示している。
結論: 高品質なバイオメディカルコーパスの活用と効果的な微調整戦略の開発は, バイオメディカルドメイン内のLCMの性能を著しく向上させる。
taiyiは教師付き微調整によるバイリンガルのマルチタスク機能を示している。
しかし,LLMに基づく生成手法では,生成タスクではない情報抽出のようなタスクは依然として困難であり,より小さな言語モデルの従来の差別的アプローチよりも優れている。
関連論文リスト
- Bridging Language Barriers in Healthcare: A Study on Arabic LLMs [1.2006896500048552]
本稿では,多言語理解と医学知識の両方に熟練した大規模言語モデルを開発する上での課題について考察する。
言語比率を慎重に調整した大規模モデルは、母国語の臨床課題において優れた性能を発揮することが判明した。
論文 参考訳(メタデータ) (2025-01-16T20:24:56Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - COMET: Benchmark for Comprehensive Biological Multi-omics Evaluation Tasks and Language Models [56.81513758682858]
COMETは、シングルオミクス、クロスオミクス、マルチオミクスタスクのモデルを評価することを目的としている。
まず、我々は、DNA、RNA、タンパク質の主要な構造的および機能的側面をカバーする、下流タスクとデータセットの多様なコレクションをキュレートし、開発する。
そこで我々は,DNA,RNA,タンパク質の既存の基礎言語モデルと,新たに提案されたマルチオミクス法を評価する。
論文 参考訳(メタデータ) (2024-12-13T18:42:00Z) - Extracting and Transferring Abilities For Building Multi-lingual Ability-enhanced Large Language Models [104.96990850774566]
我々は,MAETと命名された多言語能力抽出と伝達手法を提案する。
我々のキーとなる考え方は、大きな言語モデルから言語に依存しない能力に関する重みを分解し抽出することである。
実験結果から,MAETは高度能力の抽出と伝達を効果的に行うことができ,トレーニングベースライン法よりも優れることがわかった。
論文 参考訳(メタデータ) (2024-10-10T11:23:18Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - A Comprehensive Evaluation of Large Language Models on Benchmark
Biomedical Text Processing Tasks [2.5027382653219155]
本稿では,バイオメディカル・タスクのベンチマークにおいて,LLM(Large Language Models)の性能を評価することを目的とする。
我々の知る限りでは、生物医学領域における様々なLSMの広範な評価と比較を行う最初の研究である。
論文 参考訳(メタデータ) (2023-10-06T14:16:28Z) - Bio-SIEVE: Exploring Instruction Tuning Large Language Models for
Systematic Review Automation [6.452837513222072]
LLM(Large Language Models)は、医学的体系的レビューのための文献スクリーニングをサポートすることができる。
私たちのベストモデルであるBio-SIEVEは、ChatGPTとトレーニングされた伝統的なアプローチの両方より優れています。
バイオSIEVEは, バイオメディカル・システマティック・レビューのプロセスにおいて, LLMを専門化するための重要なステップであると考えている。
論文 参考訳(メタデータ) (2023-08-12T16:56:55Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - An Empirical Study of Multi-Task Learning on BERT for Biomedical Text
Mining [17.10823632511911]
複数のデコーダを用いたマルチタスク学習モデルについて,生物医学的および臨床的自然言語処理タスクの多様性について検討した。
実験結果から,MTL微調整モデルが最先端トランスモデルより優れていることが示された。
論文 参考訳(メタデータ) (2020-05-06T13:25:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。