論文の概要: Incorporating LLM Embeddings for Variation Across the Human Genome
- arxiv url: http://arxiv.org/abs/2509.20702v1
- Date: Thu, 25 Sep 2025 03:09:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.674291
- Title: Incorporating LLM Embeddings for Variation Across the Human Genome
- Title(参考訳): ヒトゲノム間の変異に対するLDM埋め込みの導入
- Authors: Hongqian Niu, Jordan Bryan, Xihao Li, Didong Li,
- Abstract要約: 我々はヒトゲノム全体にわたる変異レベルの埋め込みを生成する最初の体系的な枠組みの1つを提示する。
FAVOR, ClinVar, GWAS Catalog のキュレートされたアノテーションを用いて, 我々は890億の可能な変種についてセマンティックテキスト記述を構築した。
埋め込みはOpenAIのtext-em-3-largeとオープンソースのQwen3-Embedding-0.6Bモデルの両方で製造された。
- 参考スコア(独自算出の注目度): 7.919252190254812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language model (LLM) embeddings have enabled powerful representations for biological data, but most applications to date focus only on gene-level information. We present one of the first systematic frameworks to generate variant-level embeddings across the entire human genome. Using curated annotations from FAVOR, ClinVar, and the GWAS Catalog, we constructed semantic text descriptions for 8.9 billion possible variants and generated embeddings at three scales: 1.5 million HapMap3+MEGA variants, ~90 million imputed UK Biobank variants, and ~9 billion all possible variants. Embeddings were produced with both OpenAI's text-embedding-3-large and the open-source Qwen3-Embedding-0.6B models. Baseline experiments demonstrate high predictive accuracy for variant properties, validating the embeddings as structured representations of genomic variation. We outline two downstream applications: embedding-informed hypothesis testing by extending the Frequentist And Bayesian framework to genome-wide association studies, and embedding-augmented genetic risk prediction that enhances standard polygenic risk scores. These resources, publicly available on Hugging Face, provide a foundation for advancing large-scale genomic discovery and precision medicine.
- Abstract(参考訳): 近年の大規模言語モデル (LLM) の埋め込みは生物学的データに対する強力な表現を可能にしているが、ほとんどのアプリケーションは遺伝子レベルの情報にのみ焦点をあてている。
我々はヒトゲノム全体にわたる変異レベルの埋め込みを生成する最初の体系的な枠組みの1つを提示する。
FAVOR, ClinVar, GWAS Catalog のキュレートされたアノテーションを用いて,890億の可能な変種に関するセマンティックテキスト記述を構築し, 150万のHapMap3+MEGA変種, 約9000万の英国バイオバンク変種, 約90億の可能な変種を3つのスケールで埋め込みた。
埋め込みはOpenAIのテキスト埋め込み-3-largeとオープンソースのQwen3-Embedding-0.6Bモデルの両方で製造された。
ベースライン実験では、変異特性の予測精度が高く、埋め込みをゲノム変異の構造化表現として検証する。
本稿では,FrequentistとBayesianのフレームワークをゲノムワイド関連研究に拡張した埋め込み型仮説テストと,標準ポリジェニックリスクスコアを高める組込み型遺伝的リスク予測の2つのダウンストリーム応用について概説する。
これらの資源はHugging Faceで公開されており、大規模なゲノム発見と精密な医学の発展の基盤となっている。
関連論文リスト
- EnTao-GPM: DNA Foundation Model for Predicting the Germline Pathogenic Mutations [16.32431932781823]
病原性哺乳類ゲノム(ヒト、ブタ、マウス)の事前学習を目的としたクロス種
ClinVarとHGMDの微細調整によるゲルムリン突然変異の特殊化
LLMに基づく統計的説明とDNAシークエンディングの統合に関する解釈可能な臨床的枠組み
論文 参考訳(メタデータ) (2025-07-29T11:34:41Z) - GenoMAS: A Multi-Agent Framework for Scientific Discovery via Code-Driven Gene Expression Analysis [12.311957227670598]
GenoMASは、タイプされたメッセージパッシングプロトコルを通じて6つの特殊エージェントを編成する。
GenoMASの中心には、ガイド付き計画フレームワークがある。
GenoMASは生物学的に証明可能な遺伝子フェノタイプ関連をその文献で裏付ける。
論文 参考訳(メタデータ) (2025-07-28T17:55:08Z) - Enhancing Omics Cohort Discovery for Research on Neurodegeneration through Ontology-Augmented Embedding Models [0.14999444543328289]
NeuroEmbedは、コホートやサンプルを表現するための意味論的に正確な埋め込み空間のエンジニアリングのためのアプローチである。
本手法は,(1)公開リポジトリからのコホート抽出,(2)バイオメディカルクラスタリングと組込み空間でのクラスタリングを用いたコホートとサンプルのメタデータの半自動正規化と強化,(3)標準化されたメタデータ次元のランダムな組み合わせに基づくコホートとサンプルの問合せデータセットの自動生成,(4)クエリを最適化するためのドメイン固有の埋め込み器の微調整の4段階からなる。
論文 参考訳(メタデータ) (2025-06-16T13:27:10Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Knowledge-Driven Feature Selection and Engineering for Genotype Data with Large Language Models [35.084222907099644]
FREEFORM, Free-flow Reasoning, Ensembling for Enhanced Feature Output and Robust Modeling。
https://github.com/PennShenLab/FREEFORM.com/FreeFORMはGitHubのオープンソースフレームワークとして利用可能だ。
論文 参考訳(メタデータ) (2024-10-02T17:53:08Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Unsupervised ensemble-based phenotyping helps enhance the
discoverability of genes related to heart morphology [57.25098075813054]
我々はUn Phenotype Ensemblesという名の遺伝子発見のための新しいフレームワークを提案する。
教師なしの方法で学習された表現型のセットをプールすることで、冗長だが非常に表現性の高い表現を構築する。
これらの表現型は、(GWAS)を介して分析され、高い自信と安定した関連のみを保持する。
論文 参考訳(メタデータ) (2023-01-07T18:36:44Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。