論文の概要: DNABERT-2: Fine-Tuning a Genomic Language Model for Colorectal Gene Enhancer Classification
- arxiv url: http://arxiv.org/abs/2509.25274v1
- Date: Sun, 28 Sep 2025 16:10:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.224562
- Title: DNABERT-2: Fine-Tuning a Genomic Language Model for Colorectal Gene Enhancer Classification
- Title(参考訳): DNABERT-2: 大腸癌遺伝子エンハンサー分類のためのゲノム言語モデル
- Authors: Darren King, Yaser Atlasi, Gholamreza Rafiee,
- Abstract要約: DNABERT-2は、DNAから可変長トークンを学習するためにバイトペアエンコーディングを使用するトランスフォーマーゲノム言語モデルである。
遺伝子エンハンサーは、いつ、どこで遺伝子がスイッチされるかを制御するが、その配列の多様性と組織特異性は、大腸癌の特定を困難にしている。
大腸癌におけるBPEトークン化を用いた第2世代のゲノム言語モデルを適用した最初の研究である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gene enhancers control when and where genes switch on, yet their sequence diversity and tissue specificity make them hard to pinpoint in colorectal cancer. We take a sequence-only route and fine-tune DNABERT-2, a transformer genomic language model that uses byte-pair encoding to learn variable-length tokens from DNA. Using assays curated via the Johnston Cancer Research Centre at Queen's University Belfast, we assembled a balanced corpus of 2.34 million 1 kb enhancer sequences, applied summit-centered extraction and rigorous de-duplication including reverse-complement collapse, and split the data stratified by class. With a 4096-term vocabulary and a 232-token context chosen empirically, the DNABERT-2-117M classifier was trained with Optuna-tuned hyperparameters and evaluated on 350742 held-out sequences. The model reached PR-AUC 0.759, ROC-AUC 0.743, and best F1 0.704 at an optimized threshold (0.359), with recall 0.835 and precision 0.609. Against a CNN-based EnhancerNet trained on the same data, DNABERT-2 delivered stronger threshold-independent ranking and higher recall, although point accuracy was lower. To our knowledge, this is the first study to apply a second-generation genomic language model with BPE tokenization to enhancer classification in colorectal cancer, demonstrating the feasibility of capturing tumor-associated regulatory signals directly from DNA sequence alone. Overall, our results show that transformer-based genomic models can move beyond motif-level encodings toward holistic classification of regulatory elements, offering a novel path for cancer genomics. Next steps will focus on improving precision, exploring hybrid CNN-transformer designs, and validating across independent datasets to strengthen real-world utility.
- Abstract(参考訳): 遺伝子エンハンサーは、いつ、どこで遺伝子がスイッチされるかを制御するが、その配列の多様性と組織特異性は、大腸癌の特定を困難にしている。
バイトペアエンコーディングを用いてDNAから可変長トークンを学習するトランスフォーマーゲノム言語モデルであるDNABERT-2とシーケンスのみの経路を用いる。
クイーンズ大学ベルファスト校のジョンストン癌研究センターで採取したアッセイを用いて、234万1kbのエンハンサー配列のバランスの取れたコーパスを組み立てた。
4096-term vocabularyと232-token contextを経験的に選択し、DNABERT-2-117M分類器をOptuna-tuned hyperparametersで訓練し、350742の保持配列で評価した。
このモデルはPR-AUC 0.759、ROC-AUC 0.743、最適化しきい値(0.359)で最高のF1 0.704、リコール0.835、精度0.609に達した。
同じデータでトレーニングされたCNNベースのEnhancerNetに対して、DNABERT-2はより強い閾値非依存のランクと高いリコールを提供したが、ポイント精度は低かった。
本研究は,BPEトークン化を用いた第2世代ゲノミクス言語モデルを用いて大腸癌の分類を強化し,DNA配列から直接腫瘍関連制御シグナルを捕捉する可能性を示す最初の研究である。
以上の結果から,トランスフォーマーに基づくゲノムモデルが,モチーフレベルのエンコーディングを超えて,規制要素の全体的分類へと移行し,がんゲノム学の新たな道筋を提供する可能性が示唆された。
次のステップでは、精度の向上、ハイブリッドCNN変換器の設計の探索、現実のユーティリティを強化するための独立したデータセットの検証に注力する。
関連論文リスト
- A Novel cVAE-Augmented Deep Learning Framework for Pan-Cancer RNA-Seq Classification [0.0]
本研究では,cVAE (class-conditional variational autoencoder) を用いて,パン・カンサー遺伝子発現分類のためのトレーニングデータを拡張する新しいディープラーニングフレームワークを提案する。
本稿では、VAEトレーニング曲線、性能指標(ROC曲線と混乱行列)、アーキテクチャ図など、詳細な実験結果を示す。
論文 参考訳(メタデータ) (2025-08-02T16:57:31Z) - Hybrid Tokenization Strategy for DNA Language Model using Byte Pair Encoding and K-MER Methods [0.0]
従来のk-merトークン化は、局所的なDNA配列構造を捉えるのに効果的であるが、しばしば課題に直面している。
選択したBPEトークンを600のBPEサイクルで生成し,ユニークな6merトークンと組み合わせることを提案する。
このハイブリッドアプローチにより、バランスの取れたコンテキスト対応の語彙が保証され、モデルがショートパターンとロングパターンの両方をキャプチャできる。
論文 参考訳(メタデータ) (2025-07-24T16:45:23Z) - Hybrid deep learning-based strategy for the hepatocellular carcinoma cancer grade classification of H&E stained liver histopathology images [2.833640239679924]
肝細胞癌(HCC)は肝癌の一種であり,早期診断が一般的である。
本稿では、トランスファーラーニングを用いて、事前学習された畳み込みニューラルネットワーク(CNN)モデルから特徴を抽出するハイブリッドディープラーニングベースのアーキテクチャを提案する。
提案したハイブリッドモデルでは,TCGA-LIHCおよびKMCデータベースの事前学習モデルよりも2%,4%の精度が向上した。
論文 参考訳(メタデータ) (2024-12-04T07:26:36Z) - Brain Tumor Classification on MRI in Light of Molecular Markers [56.99710477905796]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - Breast Ultrasound Tumor Classification Using a Hybrid Multitask
CNN-Transformer Network [63.845552349914186]
胸部超音波(BUS)画像分類において,グローバルな文脈情報の収集が重要な役割を担っている。
ビジョントランスフォーマーは、グローバルなコンテキスト情報をキャプチャする能力が改善されているが、トークン化操作によって局所的なイメージパターンを歪めてしまう可能性がある。
本研究では,BUS腫瘍分類とセグメンテーションを行うハイブリッドマルチタスクディープニューラルネットワークであるHybrid-MT-ESTANを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:19:32Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome [10.051595222470304]
我々は、k-merトークン化によって導入された計算とサンプルの非効率性が、大規模なゲノム基盤モデルの開発における主要な障害であると主張している。
我々は、k-merトークン化をByte Pair$に置き換えることを提案するゲノムトークン化に関する概念的および実証的な洞察を提供する。
DNABERT-2は、効率的なトークン化を施し、入力長制約を克服するために複数の戦略を用いるゲノム基盤モデルである。
論文 参考訳(メタデータ) (2023-06-26T18:43:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。