論文の概要: Interpretable DNA Sequence Classification via Dynamic Feature Generation in Decision Trees
- arxiv url: http://arxiv.org/abs/2604.12060v1
- Date: Mon, 13 Apr 2026 20:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.124359
- Title: Interpretable DNA Sequence Classification via Dynamic Feature Generation in Decision Trees
- Title(参考訳): 決定木における動的特徴生成による解釈可能なDNA配列分類
- Authors: Nicolas Huynh, Krzysztof Kacprzyk, Ryan Sheridan, David Bentley, Mihaela van der Schaar,
- Abstract要約: DEFTは木構築中に適応的に高レベルなシーケンス特徴を生成する新しいフレームワークである。
そこで本研究では,DEFTが多種多様なゲノムタスクにまたがって,人間の解釈可能かつ高い予測的シーケンスの特徴を発見できることを示す。
- 参考スコア(独自算出の注目度): 48.331026745746776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The analysis of DNA sequences has become critical in numerous fields, from evolutionary biology to understanding gene regulation and disease mechanisms. While deep neural networks can achieve remarkable predictive performance, they typically operate as black boxes. Contrasting these black boxes, axis-aligned decision trees offer a promising direction for interpretable DNA sequence analysis, yet they suffer from a fundamental limitation: considering individual raw features in isolation at each split limits their expressivity, which results in prohibitive tree depths that hinder both interpretability and generalization performance. We address this challenge by introducing DEFT, a novel framework that adaptively generates high-level sequence features during tree construction. DEFT leverages large language models to propose biologically-informed features tailored to the local sequence distributions at each node and to iteratively refine them with a reflection mechanism. Empirically, we demonstrate that DEFT discovers human-interpretable and highly predictive sequence features across a diverse range of genomic tasks.
- Abstract(参考訳): DNA配列の解析は、進化生物学から遺伝子制御や疾患機構の理解に至るまで、多くの分野において重要になっている。
ディープニューラルネットワークは驚くべき予測性能を達成することができるが、通常はブラックボックスとして動作する。
これらのブラックボックスとは対照的に、軸に整列した決定木は、解釈可能なDNA配列解析のための有望な方向を提供するが、基本的な制限がある。
木構築中に高レベルなシーケンス特徴を適応的に生成する新しいフレームワークであるDEFTを導入することで、この問題に対処する。
DEFTは大きな言語モデルを利用して、各ノードの局所的な配列分布に合わせて生物学的にインフォームドされた特徴を提案し、それをリフレクション機構で反復的に洗練する。
実証実験により、DEFTは、多様なゲノムタスクにまたがる、人間の解釈可能かつ高い予測的シーケンスの特徴を発見できることを示した。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - PhyloGen: Language Model-Enhanced Phylogenetic Inference via Graph Structure Generation [50.80441546742053]
系統樹は種間の進化的関係を解明する。
伝統的なマルコフ連鎖モンテカルロ法は、緩やかな収束と計算上の負担に直面している。
我々は、事前学習されたゲノム言語モデルを活用する新しい方法であるPhyloGenを提案する。
論文 参考訳(メタデータ) (2024-12-25T08:33:05Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。