論文の概要: Knowledge-Driven Feature Selection and Engineering for Genotype Data with Large Language Models
- arxiv url: http://arxiv.org/abs/2410.01795v1
- Date: Wed, 2 Oct 2024 17:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 15:14:33.714494
- Title: Knowledge-Driven Feature Selection and Engineering for Genotype Data with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたジェノタイプデータのための知識駆動型特徴選択と工学
- Authors: Joseph Lee, Shu Yang, Jae Young Baik, Xiaoxi Liu, Zhen Tan, Dawei Li, Zixuan Wen, Bojian Hou, Duy Duong-Tran, Tianlong Chen, Li Shen,
- Abstract要約: FREEFORM, Free-flow Reasoning, Ensembling for Enhanced Feature Output and Robust Modeling。
https://github.com/PennShenLab/FREEFORM.com/FreeFORMはGitHubのオープンソースフレームワークとして利用可能だ。
- 参考スコア(独自算出の注目度): 35.084222907099644
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Predicting phenotypes with complex genetic bases based on a small, interpretable set of variant features remains a challenging task. Conventionally, data-driven approaches are utilized for this task, yet the high dimensional nature of genotype data makes the analysis and prediction difficult. Motivated by the extensive knowledge encoded in pre-trained LLMs and their success in processing complex biomedical concepts, we set to examine the ability of LLMs in feature selection and engineering for tabular genotype data, with a novel knowledge-driven framework. We develop FREEFORM, Free-flow Reasoning and Ensembling for Enhanced Feature Output and Robust Modeling, designed with chain-of-thought and ensembling principles, to select and engineer features with the intrinsic knowledge of LLMs. Evaluated on two distinct genotype-phenotype datasets, genetic ancestry and hereditary hearing loss, we find this framework outperforms several data-driven methods, particularly on low-shot regimes. FREEFORM is available as open-source framework at GitHub: https://github.com/PennShenLab/FREEFORM.
- Abstract(参考訳): 複雑な遺伝的基盤を持つ表現型を、小さな解釈可能な様々な特徴のセットに基づいて予測することは、依然として困難な課題である。
従来のデータ駆動型手法は, 解析や予測を困難にするが, ジェノタイプデータの高次元特性は解析と予測を困難にしている。
学習済みのLLMで符号化された豊富な知識と複雑な生体医学概念の処理の成功に触発された我々は、新しい知識駆動フレームワークを用いて、表型遺伝子型データの特徴選択と工学におけるLLMの能力について検討した。
FREEFORM, Free-flow Reasoning and Ensembling for Enhanced Feature Output and Robust Modeling, designed with chain-of-thinkt and ensembling principles, to select and engineer features with theintrinsic knowledge of LLMs。
2つの異なる遺伝子型フェノタイプデータセット、遺伝的祖先、遺伝性難聴に基づいて評価した結果、この枠組みは、特に低ショット状態において、いくつかのデータ駆動手法より優れていることがわかった。
FREEFORMはGitHubのオープンソースフレームワークとして利用可能である。
関連論文リスト
- Generative Fuzzy System for Sequence Generation [16.20988290308979]
本稿では,データと知識駆動型メカニズムを組み合わせたファジィ・システムを提案する。
我々はFuzzyS2Sと呼ばれるシーケンス生成のためのエンドツーエンドのGenFSモデルを提案する。
12のデータセットに対して,3つの異なる生成タスクのカテゴリを網羅した一連の実験を行った。
論文 参考訳(メタデータ) (2024-11-21T06:03:25Z) - Combining Domain-Specific Models and LLMs for Automated Disease Phenotyping from Survey Data [0.0]
本研究では,ドメイン固有モデルであるBERN2と大規模言語モデル(LLM)を組み合わせることにより,調査データから自動表現性を高める可能性について検討した。
我々は ORIGINS 調査データから,エンティティ認識と正規化モデルであるBERN2 を用いて情報抽出を行った。
BERN2は疾患の言及を抽出・正規化する上で高い性能を示し、特にFew Shot InferenceとRAGオーケストレーションとのLLMの統合により精度が向上した。
論文 参考訳(メタデータ) (2024-10-28T02:55:03Z) - LSTM Autoencoder-based Deep Neural Networks for Barley Genotype-to-Phenotype Prediction [16.99449054451577]
そこで本研究では,オオムギの開花時期と収量推定のために,オオムギの遺伝子型からフェノタイプへの予測のためのLSTMオートエンコーダを用いた新しいモデルを提案する。
我々のモデルは、複雑な高次元農業データセットを扱う可能性を示す他のベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-21T16:07:43Z) - Geneverse: A collection of Open-source Multimodal Large Language Models for Genomic and Proteomic Research [20.285114234576298]
大規模言語モデル(LLM)は、生物医学と医療の研究に期待されている。
本稿では,ゲノム学およびプロテオミクス研究における3つの新しい課題に対して,微調整LDMとマルチモーダルLSM(MLLM)のコレクションを提案する。
Geneverseのモデルは、ドメイン固有のデータセットに基づいてトレーニングされ、評価される。
適応LLMとMLLMはこれらのタスクに対して良好に動作し、クローズドソースの大規模モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-21T14:19:10Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Machine Learning in Nano-Scale Biomedical Engineering [77.75587007080894]
ナノスケールバイオメディカルエンジニアリングにおける機械学習の利用に関する既存の研究について概説する。
ML問題として定式化できる主な課題は、3つの主要なカテゴリに分類される。
提示された方法論のそれぞれについて、その原則、応用、制限に特に重点を置いている。
論文 参考訳(メタデータ) (2020-08-05T15:45:54Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。