論文の概要: GenoBERT: A Language Model for Accurate Genotype Imputation
- arxiv url: http://arxiv.org/abs/2604.00058v1
- Date: Tue, 31 Mar 2026 04:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.652339
- Title: GenoBERT: A Language Model for Accurate Genotype Imputation
- Title(参考訳): GenoBERT: 正確な遺伝子型インプットのための言語モデル
- Authors: Lei Huang, Chuan Qiu, Kuan-Jui Su, Anqi Liu, Yun Gong, Weiqiang Lin, Lindong Jiang, Chen Zhao, Meng Song, Jeffrey Deng, Qing Tian, Zhe Luo, Ping Gong, Hui Shen, Chaoyang Zhang, Hong-Wen Deng,
- Abstract要約: GenoBERT (Genotype Bidirectional Representations from Transformers) は、位相付きジェノタイプをトークン化する参照レスフレームワークである。
GenoBERTは4つのベースライン法と比較して全体的な精度が最も高い。
- 参考スコア(独自算出の注目度): 23.45811349566905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Genotype imputation enables dense variant coverage for genome-wide association and risk-prediction studies, yet conventional reference-panel methods remain limited by ancestry bias and reduced rare-variant accuracy. We present Genotype Bidirectional Encoder Representations from Transformers (GenoBERT), a transformer-based, reference-free framework that tokenizes phased genotypes and uses a self-attention mechanism to capture both short- and long-range linkage disequilibrium (LD) dependencies. Benchmarking on two independent datasets including the Louisiana Osteoporosis Study (LOS) and the 1000 Genomes Project (1KGP) across ancestry groups and multiple genotype missingness levels (5-50%) shows that GenoBERT achieves the highest overall accuracy compared to four baseline methods (Beagle5.4, SCDA, BiU-Net, and STICI). At practical sparsity levels (up to 25% missing), GenoBERT attains high overall imputation accuracy ($r^2 approx 0.98$) across datasets, and maintains robust performance ($r^2 > 0.90$) even at 50% missingness. Experimental results across different ancestries confirm consistent gains across datasets, with resilience to small sample sizes and weak LD. A 128-SNP (single-nucleotide polymorphism) context window (approximately 100 Kb) is validated through LD-decay analyses as sufficient to capture local correlation structures. By eliminating reference-panel dependence while preserving high accuracy, GenoBERT provides a scalable and robust solution for genotype imputation and a foundation for downstream genomic modeling.
- Abstract(参考訳): 遺伝子型インパクションは、ゲノムワイドな関連性やリスク予測研究のための高密度な変異カバレッジを可能にするが、従来の基準パネル法は、祖先のバイアスと希少な変異の精度の低下によって制限されている。
位相型ジェノタイプをトークン化するトランスフォーマーベースの参照フリーフレームワークであるTransformers (GenoBERT) のGenotype Bidirectional Encoder Representationsを提案する。
ルイジアナ骨粗変研究 (LOS) と1000ゲノムプロジェクト (1KGP) を含む2つの独立したデータセットのベンチマークでは、ジェノバートが4つの基準法 (Beagle5.4, SCDA, BiU-Net, STICI) と比較して最も高い総合的精度を達成したことが示されている。
実用的なスパーシリティレベル(最大25%の欠落)では、GenoBERTはデータセット全体で高い全体的な計算精度(r^2 approx 0.98$)を獲得し、50%の欠落でも堅牢なパフォーマンス(r^2 > 0.90$)を維持している。
異なる祖先間での実験結果により、データセット間の一貫性のあるゲインが確認され、小さなサンプルサイズと弱いLDに対するレジリエンスが保証された。
128-SNP(単一ヌクレオチド多型)コンテキストウインドウ(約100Kb)をLD-decay解析により局所相関構造を捉えるのに十分検証した。
GenoBERTは、高い精度を維持しながら参照パネル依存を排除し、ジェノタイプ計算のためのスケーラブルで堅牢なソリューションと下流ゲノムモデリングの基礎を提供する。
関連論文リスト
- SNPgen: Phenotype-Supervised Genotype Representation and Synthetic Data Generation via Latent Diffusion [6.660968772645983]
SNPgenは、表現型制御された合成遺伝子型を生成するための条件付き潜伏拡散フレームワークである。
英国バイオバンクの個人を4つの複雑な疾患に分けて評価した。
論文 参考訳(メタデータ) (2026-03-11T15:23:37Z) - Morpho-Genomic Deep Learning for Ovarian Cancer Subtype and Gene Mutation Prediction from Histopathology [0.0]
現在の診断方法は、精密腫瘍学に必要なゲノム変異を明らかにする能力に限られている。
本研究では,定量的核形態計測と深部畳み込み画像特徴を融合したハイブリッドディープラーニングパイプラインを提案する。
パイプライン全体の分類精度は84.2%(Macro AUC$0.87 pm 0.03$)である。
論文 参考訳(メタデータ) (2025-11-05T11:09:20Z) - DNABERT-2: Fine-Tuning a Genomic Language Model for Colorectal Gene Enhancer Classification [0.0]
DNABERT-2は、DNAから可変長トークンを学習するためにバイトペアエンコーディングを使用するトランスフォーマーゲノム言語モデルである。
遺伝子エンハンサーは、いつ、どこで遺伝子がスイッチされるかを制御するが、その配列の多様性と組織特異性は、大腸癌の特定を困難にしている。
大腸癌におけるBPEトークン化を用いた第2世代のゲノム言語モデルを適用した最初の研究である。
論文 参考訳(メタデータ) (2025-09-28T16:10:03Z) - Unlasting: Unpaired Single-Cell Multi-Perturbation Estimation by Dual Conditional Diffusion Implicit Bridges [68.98973318553983]
本稿では,Dual Diffusion Implicit Bridges (DDIB) に基づくフレームワークを提案する。
我々は、生物学的に意味のある方法で摂動シグナルを伝達するために遺伝子制御ネットワーク(GRN)情報を統合する。
また、サイレント遺伝子を予測し、生成したプロファイルの品質を向上させるためのマスキング機構も組み込んだ。
論文 参考訳(メタデータ) (2025-06-26T09:05:38Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome [10.051595222470304]
我々は、k-merトークン化によって導入された計算とサンプルの非効率性が、大規模なゲノム基盤モデルの開発における主要な障害であると主張している。
我々は、k-merトークン化をByte Pair$に置き換えることを提案するゲノムトークン化に関する概念的および実証的な洞察を提供する。
DNABERT-2は、効率的なトークン化を施し、入力長制約を克服するために複数の戦略を用いるゲノム基盤モデルである。
論文 参考訳(メタデータ) (2023-06-26T18:43:46Z) - rfPhen2Gen: A machine learning based association study of brain imaging
phenotypes to genotypes [71.1144397510333]
56個の脳画像QTを用いてSNPを予測する機械学習モデルを学習した。
アルツハイマー病(AD)リスク遺伝子APOEのSNPは、ラスソとランダムな森林に対して最低のRMSEを有していた。
ランダム・フォレストは、線形モデルによって優先順位付けされなかったが、脳関連疾患と関連があることが知られている追加のSNPを特定した。
論文 参考訳(メタデータ) (2022-03-31T20:15:22Z) - Brain Image Synthesis with Unsupervised Multivariate Canonical
CSC$\ell_4$Net [122.8907826672382]
我々は,新しいCSC$ell_4$Netを用いて,イントレとイントラモーダルの両方にまたがる専用特徴を学習することを提案する。
論文 参考訳(メタデータ) (2021-03-22T05:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。