論文の概要: Toward a Team of AI-made Scientists for Scientific Discovery from Gene
Expression Data
- arxiv url: http://arxiv.org/abs/2402.12391v2
- Date: Wed, 21 Feb 2024 03:42:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 18:34:53.179338
- Title: Toward a Team of AI-made Scientists for Scientific Discovery from Gene
Expression Data
- Title(参考訳): 遺伝子発現データによる科学発見のためのAI製科学者チームを目指して
- Authors: Haoyang Liu, Yijiang Li, Jinglin Jian, Yuxuan Cheng, Jianrong Lu,
Shuyi Guo, Jinglei Zhu, Mianchen Zhang, Miantong Zhang, Haohan Wang
- Abstract要約: 我々は、科学的な発見パイプラインを合理化するために設計された新しいフレームワーク、AIマニュフェストチーム(TAIS)を紹介する。
TAISは、プロジェクトマネージャ、データエンジニア、ドメインエキスパートを含むシミュレートされた役割で構成され、それぞれがLLM(Large Language Model)によって表現される。
これらの役割は、典型的にはデータ科学者が行うタスクを再現するために協力し、疾患予測遺伝子を特定することに焦点を当てている。
- 参考スコア(独自算出の注目度): 9.767546641019862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning has emerged as a powerful tool for scientific discovery,
enabling researchers to extract meaningful insights from complex datasets. For
instance, it has facilitated the identification of disease-predictive genes
from gene expression data, significantly advancing healthcare. However, the
traditional process for analyzing such datasets demands substantial human
effort and expertise for the data selection, processing, and analysis. To
address this challenge, we introduce a novel framework, a Team of AI-made
Scientists (TAIS), designed to streamline the scientific discovery pipeline.
TAIS comprises simulated roles, including a project manager, data engineer, and
domain expert, each represented by a Large Language Model (LLM). These roles
collaborate to replicate the tasks typically performed by data scientists, with
a specific focus on identifying disease-predictive genes. Furthermore, we have
curated a benchmark dataset to assess TAIS's effectiveness in gene
identification, demonstrating our system's potential to significantly enhance
the efficiency and scope of scientific exploration. Our findings represent a
solid step towards automating scientific discovery through large language
models.
- Abstract(参考訳): 機械学習は科学的発見のための強力なツールとして登場し、研究者は複雑なデータセットから意味のある洞察を抽出できる。
例えば、疾患予測遺伝子を遺伝子発現データから同定し、医療を大幅に進歩させた。
しかし、そのようなデータセットを分析する従来のプロセスは、データの選択、処理、分析に多大な努力と専門知識を必要とする。
この課題に対処するために,我々は新たなフレームワークであるai-made scientists(tais)を導入し,科学的発見パイプラインを合理化する。
TAISは、プロジェクトマネージャ、データエンジニア、ドメインエキスパートを含むシミュレーションされた役割で構成され、それぞれがLLM(Large Language Model)によって表現される。
これらの役割は、データサイエンティストが一般的に行うタスクを再現するために協力し、特に疾患予測遺伝子を特定することに焦点を当てている。
さらに、遺伝子同定におけるTAISの有効性を評価するためのベンチマークデータセットをキュレートし、科学的探索の効率と範囲を大幅に向上させるシステムの可能性を示した。
我々の発見は、大規模な言語モデルによる科学的発見を自動化するための確かなステップである。
関連論文リスト
- An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - The SourceData-NLP dataset: integrating curation into scientific
publishing for training large language models [1.0423199374671421]
本稿では,出版過程における論文の定期的なキュレーションを通じて生成したSourceData-NLPデータセットについて述べる。
このデータセットは、分子生物学と細胞生物学の3,223の論文で18,689個の数字から算出された、620,000以上の注釈付き生物医学的な実体を含んでいる。
論文 参考訳(メタデータ) (2023-10-31T13:22:38Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - Genetic InfoMax: Exploring Mutual Information Maximization in
High-Dimensional Imaging Genetics Studies [50.11449968854487]
遺伝子ワイド・アソシエーション(GWAS)は、遺伝的変異と特定の形質の関係を同定するために用いられる。
画像遺伝学の表現学習は、GWASによって引き起こされる固有の課題により、ほとんど探索されていない。
本稿では,GWAS の具体的な課題に対処するために,トランスモーダル学習フレームワーク Genetic InfoMax (GIM) を提案する。
論文 参考訳(メタデータ) (2023-09-26T03:59:21Z) - Incomplete Multimodal Learning for Complex Brain Disorders Prediction [65.95783479249745]
本稿では,変換器と生成対向ネットワークを用いた不完全なマルチモーダルデータ統合手法を提案する。
アルツハイマー病神経画像イニシアチブコホートを用いたマルチモーダルイメージングによる認知変性と疾患予後の予測に本手法を適用した。
論文 参考訳(メタデータ) (2023-05-25T16:29:16Z) - A New Deep Learning and XAI-Based Algorithm for Features Selection in
Genomics [5.787117733071415]
本稿では,ゲノム規模のデータに基づいて特徴選択を行う新しいアルゴリズムを提案する。
慢性リンパ性白血病データセットへの応用の結果は、アルゴリズムの有効性を証明している。
論文 参考訳(メタデータ) (2023-03-29T16:44:13Z) - Learning domain-specific causal discovery from time series [7.298647409503783]
時間変化データからの因果発見は神経科学、医学、機械学習において重要である。
人間の専門知識は必ずしも正確ではなく、豊富なデータを持つ領域では優れる傾向がある。
本研究では,データ駆動手法を用いて時系列のドメイン固有因果探索を向上できるかを検討する。
論文 参考訳(メタデータ) (2022-09-12T20:32:39Z) - A streamable large-scale clinical EEG dataset for Deep Learning [0.0]
ディープラーニングのためのデータアクセスと管理を簡略化する,最初の大規模臨床脳波データセットを公表する。
このデータセットには、Healthy Brain Networkから1,574人の青少年の収集した目を閉じた脳波データが含まれている。
論文 参考訳(メタデータ) (2022-03-04T20:05:50Z) - TRAPDOOR: Repurposing backdoors to detect dataset bias in machine
learning-based genomic analysis [15.483078145498085]
データセット内のグループの下位表現は、特定のグループの不正確な予測につながる可能性があるため、システム的識別問題を悪化させる可能性がある。
本稿では,ニューラルネットワークのバックドアであるTRAPDOORを提案する。
実世界のがんデータセットを用いて、すでに白人個人に対して存在するバイアスでデータセットを分析し、データセットにバイアスを人工的に導入する。
論文 参考訳(メタデータ) (2021-08-14T17:02:02Z) - Machine Learning Applications for Therapeutic Tasks with Genomics Data [49.98249191161107]
ゲノム学の機械学習応用に関する文献を、治療開発のレンズでレビューします。
治療パイプライン全体にわたるゲノミクス応用における22の機械学習を同定する。
この分野における7つの重要な課題を、拡大と影響の機会として挙げる。
論文 参考訳(メタデータ) (2021-05-03T21:20:20Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。