Fugu-MT 論文翻訳(概要): Evaluation of large language models for discovery of gene set function

論文の概要: Evaluation of large language models for discovery of gene set function

arxiv url: http://arxiv.org/abs/2309.04019v1
Date: Thu, 7 Sep 2023 21:10:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-11 16:34:15.009209
Title: Evaluation of large language models for discovery of gene set function
Title（参考訳）: 遺伝子集合機能発見のための大規模言語モデルの評価
Authors: Mengzhou Hu and Sahar Alkhairy, Ingoo Lee, Rudolf T. Pillich, Robin Bachelder, Trey Ideker, and Dexter Pratt
Abstract要約: 我々は,OpenAIのGPT-4を組み込んだ生物医学的知識から,共通遺伝子機能に関する仮説を立案する能力を評価する。我々は、GPT-4パイプラインを作成し、解析テキストと引用によって、それらのコンセンサス関数を要約した名前で遺伝子セットをラベル付けした。オミクスデータで発見された遺伝子セットでは、GPT-4の名称は遺伝子セットの豊かさよりも情報的であり、ヒトのレビューで大きく検証されたステートメントや引用を支持した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Gene set analysis is a mainstay of functional genomics, but it relies on manually curated databases of gene functions that are incomplete and unaware of biological context. Here we evaluate the ability of OpenAI's GPT-4, a Large Language Model (LLM), to develop hypotheses about common gene functions from its embedded biomedical knowledge. We created a GPT-4 pipeline to label gene sets with names that summarize their consensus functions, substantiated by analysis text and citations. Benchmarking against named gene sets in the Gene Ontology, GPT-4 generated very similar names in 50% of cases, while in most remaining cases it recovered the name of a more general concept. In gene sets discovered in 'omics data, GPT-4 names were more informative than gene set enrichment, with supporting statements and citations that largely verified in human review. The ability to rapidly synthesize common gene functions positions LLMs as valuable functional genomics assistants.
Abstract（参考訳）: 遺伝子セット解析は機能ゲノム学の主要な基盤であるが、生物学的文脈に不完全な遺伝子機能の手作業によるデータベースに依存している。本稿では、組込み生物医学的知識から共通の遺伝子機能に関する仮説を展開する大規模言語モデル(llm)であるopenaiのgpt-4の機能を評価する。我々はgpt-4パイプラインを作成し,解析テキストと引用文により,コンセンサス機能を要約した遺伝子集合をラベルづけした。遺伝子オントロジーにおける名前付き遺伝子セットに対するベンチマークでは、gpt-4は50%のケースで非常に類似した名前を生成し、残りのケースではより一般的な概念の名前を回復した。オミクスデータで発見された遺伝子セットでは、GPT-4の名前は遺伝子セットの豊かさよりも情報的であり、ヒトのレビューで大きく検証された文や引用を支持した。共通遺伝子機能を迅速に合成する能力は、LLMを有用な機能ゲノムアシスタントとして位置づける。

関連論文リスト

GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文参考訳（メタデータ） (2025-05-06T03:35:24Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
Survey and Improvement Strategies for Gene Prioritization with Large Language Models [61.24568051916653]
大規模言語モデル (LLM) は, 医学検査において良好に機能しているが, 希少な遺伝疾患の診断における有効性は評価されていない。表現型と可溶性レベルに基づいて, マルチエージェントとヒトフェノタイプオントロジー(HPO)を分類した。ベースラインでは、GPT-4は他のLLMよりも優れており、因果遺伝子を正しくランク付けする際の精度は30%近く向上した。
論文参考訳（メタデータ） (2025-01-30T23:03:03Z)
Predicting Genetic Mutation from Whole Slide Images via Biomedical-Linguistic Knowledge Enhanced Multi-label Classification [119.13058298388101]
遺伝子変異予測性能を向上させるため,生物知識を付加したPathGenomic Multi-label Transformerを開発した。 BPGTはまず、2つの慎重に設計されたモジュールによって遺伝子前駆体を構成する新しい遺伝子エンコーダを確立する。 BPGTはその後ラベルデコーダを設計し、最終的に2つの調整されたモジュールによる遺伝的突然変異予測を行う。
論文参考訳（メタデータ） (2024-06-05T06:42:27Z)
BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。 BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。 6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文参考訳（メタデータ） (2024-05-27T19:57:17Z)
GeneAgent: Self-verification Language Agent for Gene Set Knowledge Discovery using Domain Databases [5.831842925038342]
自己検証機能を備えた第一種言語エージェントGeneAgentを提案する。様々な生物学的データベースと自律的に相互作用し、精度を高め、幻覚の発生を減らす。異なるソースから1,106の遺伝子セットをベンチマークすると、GeneAgentは標準のGPT-4よりずっと優れています。
論文参考訳（メタデータ） (2024-05-25T12:35:15Z)
VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文参考訳（メタデータ） (2024-05-13T20:15:03Z)
FGBERT: Function-Driven Pre-trained Gene Language Model for Metagenomics [46.189419603576084]
FGBERTは、タンパク質に基づく遺伝子表現を文脈認識トークン化剤として利用する、新しいメダゲノミクス事前訓練モデルである。これは、遺伝子、機能、細菌、環境レベルにまたがる4つのレベルでのメダゲノミクスデータセットに優れた性能を示す。
論文参考訳（メタデータ） (2024-02-24T13:13:17Z)
Efficient and Scalable Fine-Tune of Language Models for Genome Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。 DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。 textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文参考訳（メタデータ） (2024-02-12T21:40:45Z)
ProtiGeno: a prokaryotic short gene finder using protein language models [1.2354076490479513]
現在の遺伝子発見者は長い遺伝子を見つけることに非常に敏感であるが、その感度は短い遺伝子を見つける際に顕著に低下する。我々はProtiGenoと呼ばれる深層学習に基づく手法を開発し、特に短いプロカリアティック遺伝子を標的とした。 4,288個のプロカリーゼゲノムの系統的大規模実験において、ProtiGenoは、現在の最先端遺伝子ファインダーよりも高精度で短いコードと非コード遺伝子を予測できることを実証した。
論文参考訳（メタデータ） (2023-07-19T16:46:42Z)
Gene Set Summarization using Large Language Models [1.312659265502151]
我々はGPTモデルを用いて遺伝子セット関数の要約を行う手法を開発した。これらの手法は,遺伝子セットのGO項リストを,有用かつ生物学的に有効に作成できることを示す。しかし、GPTベースのアプローチでは、信頼できるスコアやp値が得られず、統計的に重要でない項を返すこともしばしばある。
論文参考訳（メタデータ） (2023-05-21T02:06:33Z)
Machine Learning Methods for Cancer Classification Using Gene Expression Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。遺伝子発現は癌の早期発見において基本的な役割を担っている。本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文参考訳（メタデータ） (2023-01-28T15:03:03Z)
Feature extraction using Spectral Clustering for Gene Function Prediction [0.4492444446637856]
本稿では,クラスタ分析と階層的マルチラベル分類を組み合わせたアノテーション問題に対する,シリコアプローチの新たなアプローチを提案する。提案手法は、世界で最も支配的かつ生産的な作物であるゼア・メイズ(Zia mays)のケーススタディに適用される。
論文参考訳（メタデータ） (2022-03-25T10:17:36Z)
Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文参考訳（メタデータ） (2021-02-11T09:04:45Z)
Mining Functionally Related Genes with Semi-Supervised Learning [0.0]
我々は、豊富な機能セットを導入し、半教師付き学習アプローチとともにそれらを使用する。正およびラベルなし例(LPU)による学習の枠組みは機能的関連遺伝子のマイニングに特に適していることが示されている。
論文参考訳（メタデータ） (2020-11-05T20:34:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。