論文の概要: Geneverse: A collection of Open-source Multimodal Large Language Models for Genomic and Proteomic Research
- arxiv url: http://arxiv.org/abs/2406.15534v1
- Date: Fri, 21 Jun 2024 14:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 23:34:50.831748
- Title: Geneverse: A collection of Open-source Multimodal Large Language Models for Genomic and Proteomic Research
- Title(参考訳): Geneverse:genomic and Proteomic Researchのためのオープンソースのマルチモーダル大規模言語モデルのコレクション
- Authors: Tianyu Liu, Yijia Xiao, Xiao Luo, Hua Xu, W. Jim Zheng, Hongyu Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、生物医学と医療の研究に期待されている。
本稿では,ゲノム学およびプロテオミクス研究における3つの新しい課題に対して,微調整LDMとマルチモーダルLSM(MLLM)のコレクションを提案する。
Geneverseのモデルは、ドメイン固有のデータセットに基づいてトレーニングされ、評価される。
適応LLMとMLLMはこれらのタスクに対して良好に動作し、クローズドソースの大規模モデルよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 20.285114234576298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The applications of large language models (LLMs) are promising for biomedical and healthcare research. Despite the availability of open-source LLMs trained using a wide range of biomedical data, current research on the applications of LLMs to genomics and proteomics is still limited. To fill this gap, we propose a collection of finetuned LLMs and multimodal LLMs (MLLMs), known as Geneverse, for three novel tasks in genomic and proteomic research. The models in Geneverse are trained and evaluated based on domain-specific datasets, and we use advanced parameter-efficient finetuning techniques to achieve the model adaptation for tasks including the generation of descriptions for gene functions, protein function inference from its structure, and marker gene selection from spatial transcriptomic data. We demonstrate that adapted LLMs and MLLMs perform well for these tasks and may outperform closed-source large-scale models based on our evaluations focusing on both truthfulness and structural correctness. All of the training strategies and base models we used are freely accessible.
- Abstract(参考訳): 大規模言語モデル(LLM)の応用は、バイオメディカルおよび医療研究に期待されている。
幅広いバイオメディカルデータを用いて訓練されたオープンソースのLSMが利用可能であるにもかかわらず、LLMのゲノム学やプロテオミクスへの応用に関する現在の研究は限られている。
このギャップを埋めるために、ゲノム・プロテオミクス研究における3つの新しい課題に対して、Geneverseとして知られる微調整LLMとマルチモーダルLLM(MLLM)のコレクションを提案する。
提案手法は,遺伝子機能記述の生成,構造からのタンパク質機能推論,空間転写データからのマーカー遺伝子選択などのタスクに対するモデル適応を実現するために,高度なパラメータ効率の微調整技術を用いて,ドメイン固有のデータセットに基づいてトレーニングおよび評価を行う。
適応LLMとMLLMはこれらのタスクに対して良好に機能し、真さと構造的正当性の両方に焦点をあてた評価に基づいて、クローズドソースの大規模モデルよりも優れていることを示した。
私たちが使ったトレーニング戦略とベースモデルは、すべて自由にアクセスできます。
関連論文リスト
- Exploring the Alignment Landscape: LLMs and Geometric Deep Models in Protein Representation [57.59506688299817]
遅延表現アライメントは、異なるモダリティからの埋め込みを共有空間にマッピングするために使用され、しばしば大きな言語モデル(LLM)の埋め込み空間と一致している。
プリミティブなタンパク質中心の大規模言語モデル (MLLM) が登場したが、それらは表現の至る所で最適なアライメントの実践に関する根本的な理解が欠如しているアプローチに大きく依存している。
本研究では,タンパク質領域におけるLLMと幾何学的深部モデル(GDM)のマルチモーダル表現のアライメントについて検討する。
本研究は, モデルおよびタンパク質の観点からのアライメント要因について検討し, 現行アライメント手法の課題を特定し, アライメントプロセスを改善するための戦略を提案する。
論文 参考訳(メタデータ) (2024-11-08T04:15:08Z) - Combining Domain-Specific Models and LLMs for Automated Disease Phenotyping from Survey Data [0.0]
本研究では,ドメイン固有モデルであるBERN2と大規模言語モデル(LLM)を組み合わせることにより,調査データから自動表現性を高める可能性について検討した。
我々は ORIGINS 調査データから,エンティティ認識と正規化モデルであるBERN2 を用いて情報抽出を行った。
BERN2は疾患の言及を抽出・正規化する上で高い性能を示し、特にFew Shot InferenceとRAGオーケストレーションとのLLMの統合により精度が向上した。
論文 参考訳(メタデータ) (2024-10-28T02:55:03Z) - Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。
我々の研究は、既存のLCMスケーリングテクニック、特に選択的マージと混合のバリエーションのベンチマークから始まります。
我々の手法は、マージ可能なモデルのクラスタリングと最適なマージ戦略選択、モデルミックスによるクラスタの統合を含む。
論文 参考訳(メタデータ) (2024-10-07T15:55:55Z) - Knowledge-Driven Feature Selection and Engineering for Genotype Data with Large Language Models [35.084222907099644]
FREEFORM, Free-flow Reasoning, Ensembling for Enhanced Feature Output and Robust Modeling。
https://github.com/PennShenLab/FREEFORM.com/FreeFORMはGitHubのオープンソースフレームワークとして利用可能だ。
論文 参考訳(メタデータ) (2024-10-02T17:53:08Z) - A Survey for Large Language Models in Biomedicine [31.719451674137844]
このレビューは、PubMed、Web of Science、arXivなどのデータベースから得られた484の出版物の分析に基づいている。
我々は、診断支援、薬物発見、パーソナライズドメディカル医療を含む幅広いバイオメディカル・タスクにおいて、ゼロショット学習におけるLLMの能力について検討する。
データプライバシの懸念、限定されたモデル解釈可能性、データセットの品質の問題、倫理など、LLMがバイオメディシック領域で直面する課題について論じる。
論文 参考訳(メタデータ) (2024-08-29T12:39:16Z) - LLMs-in-the-loop Part-1: Expert Small AI Models for Bio-Medical Text Translation [0.0]
本研究では,医療用テキストに最適化された教師ありニューラルマシン翻訳モデルを開発するために,新しい"LLMs-in-the-loop"アプローチを提案する。
6つの言語での独自の平行コーパスは、科学論文、人工的に生成された臨床文書、医療文書から編纂された。
MarianMTベースのモデルは、Google Translate、DeepL、GPT-4-Turboより優れている。
論文 参考訳(メタデータ) (2024-07-16T19:32:23Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - PANDA: Preference Adaptation for Enhancing Domain-Specific Abilities of LLMs [49.32067576992511]
大規模言語モデルは、しばしばドメイン固有の最先端モデルによって達成されるパフォーマンスに欠ける。
LLMのドメイン固有の機能を強化する1つの潜在的アプローチは、対応するデータセットを使用してそれらを微調整することである。
LLM(PANDA)のドメイン固有能力を高めるための優先度適応法を提案する。
実験の結果,PANDA はテキスト分類や対話型意思決定タスクにおいて LLM のドメイン固有性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-20T09:02:55Z) - Improving Small Language Models on PubMedQA via Generative Data
Augmentation [4.96649519549027]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
小型言語モデル(SLM)はその効率で知られているが、限られた能力と訓練データに悩まされることが多い。
医療領域におけるSLMの改善を目的とした,LLMに基づく生成データ拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T23:49:23Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。