論文の概要: $p$-adic Bi-Filtrations for Topological Machine Learning on Genomic Sequences
- arxiv url: http://arxiv.org/abs/2606.06117v1
- Date: Thu, 04 Jun 2026 13:05:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.798754
- Title: $p$-adic Bi-Filtrations for Topological Machine Learning on Genomic Sequences
- Title(参考訳): ゲノム配列に基づくトポロジカル機械学習のための$p$-adicBi-Filtration
- Authors: Tirtharaj Dash, Gunja Sachdeva,
- Abstract要約: pVRはアライメントのないゲノム配列分類のための機械学習フレームワークである。
これは$p$-adic数値とトポロジカルデータ解析を組み合わせたものである。
- 参考スコア(独自算出の注目度): 1.0165640083594571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce pVR, a topological machine learning framework for alignment-free genomic sequence classification that combines $p$-adic numbers with topological data analysis. Each DNA sequence is encoded along two complementary axes: a $p$-adic distance on $k$-mer prefixes, which captures hierarchical positional structure, and a compositional $L_1$ distance on $k$-mer frequencies, which captures local sequence content. The two distances jointly parameterise a bi-filtered Vietoris--Rips complex, and per-sequence topological summaries from this bi-filtration serve as features for standard machine learning classifiers. We establish theoretical guarantees for the construction: stability under metric perturbations and invariance to the choice of prime, alongside a result that explains why a single $p$-adic axis is topologically uninformative and why the bi-filtration recovers nontrivial homology. On twelve genomic benchmarks ($28$ to $500$ sequences, $3$ to $7$ classes), pVR outperforms four established alignment-free baselines on three of six low-sample datasets, with gains of up to $21$ percentage points; it underperforms only on a SARS-CoV-2 variant benchmark whose point-mutation divergence violates the hierarchical assumption, and all methods saturate in the large-sample regime. pVR also outperforms zero-shot frozen embeddings from the 500M-parameter Nucleotide Transformer v2 by $6.7$ to $11.4$ percentage points on three low-sample benchmarks. The pVR codebase is publicly available at https://github.com/MAHI-Group/pVR.
- Abstract(参考訳): pVRは、アライメントのないゲノム配列分類のためのトポロジカル機械学習フレームワークであり、$p$-adic数値とトポロジカルデータ解析を組み合わせたものである。
それぞれのDNA配列は、2つの相補的な軸に沿ってエンコードされる:$k$-merプレフィックス上の$p$-adic 距離は、階層的な位置構造を捉え、$k$-mer 周波数上の合成$L_1$ 距離は、局所的な配列内容を取り込む。
この2つの距離は、二フィルタされたビエトリス-リップス複合体を共同でパラメータ化し、この二フィルタからのシーケンスごとのトポロジ的要約は、標準的な機械学習分類器の機能として機能する。
計量摂動の下での安定性と素数の選択への不変性、および1つの$p$進軸が位相的に非形式的である理由と、複濾過が非自明なホモロジーを回復する理由を説明する結果の理論的保証を確立する。
12のゲノミクスベンチマーク(28ドルから500ドル、クラス3ドルから7ドル)では、pVRは6つの低サンプルデータセットのうち3つで確立されたアライメントのないベースラインを4つ上回り、最大21ドルのパーセンテージを持つ。
pVRはまた、500Mパラメーターのヌクレオチドトランスフォーマー v2 のゼロショット凍結埋め込みを6.7ドルから11.4ドルの割合で3つの低サンプリングベンチマークで上回っている。
pVRのコードベースはhttps://github.com/MAHI-Group/pVRで公開されている。
関連論文リスト
- Efficient Mean Curvature Computation on High-Dimensional Data Manifolds [52.452902154360565]
高次元データセットの各点における局所的な平均曲率の推定は、機械学習アルゴリズムの重要な要素である。
本稿では,このコストを桁違いに削減する2つの補完的貢献を紹介する。
実世界のデータセットの実験では、オリジナルの実装と比較して50倍から300倍のスピードアップが確認されている。
論文 参考訳(メタデータ) (2026-06-04T16:04:31Z) - AGOP-IxG: A Gradient Covariance Filter for Local Feature Attribution on Tabular Data, with a Controlled Benchmark [0.0]
AGOP-IxG は、各サンプル毎の勾配を、上位の$K$ のランク付けされた平均勾配外積行列でプリ乗算する高速な帰属法である。
第1部では, 線形, スパース非線形, 相互作用に基づく3つの合成多クラス表計算タスクを構築し, サンプルあたりの接地トラス属性を解析的に, 数値的に導出可能である。
第2部では、ROARプロトコルを用いて、アダルト所得とクレジットカードのデフォルトに対するグローバルな忠実度を評価する。
論文 参考訳(メタデータ) (2026-05-15T07:45:35Z) - R2G: A Multi-View Circuit Graph Benchmark Suite from RTL to GDSII [14.790942679912595]
R2Gは5つのステージ認識ビューを情報同値で標準化するマルチビューサーキットグラフベンチマークスイートである。
R2Gは、合成、配置、ルーティングステージにまたがるエンドツーエンドのDEF-to-graphパイプラインを提供する。
論文 参考訳(メタデータ) (2026-04-09T22:59:27Z) - Interpretable Classification of Time Series Using Euler Characteristic Surfaces [0.5628825972916088]
Characteristics Surfaces (ECS) は、オイラー特性に基づく代替トポロジカルシグネチャである。
我々はECSベースのフレームワークを開発し、それをバイオメディカルデータセットのベンチマークに応用する。
AdaBoost拡張は980.6%の精度で、最高のディープラーニング結果にマッチする。
論文 参考訳(メタデータ) (2026-03-16T10:33:34Z) - OrthoAI v2: From Single-Agent Segmentation to Dual-Agent Treatment Planning for Clear Aligners [0.0]
私たちは、AI支援矯正治療計画のためのオープンソースのパイプラインの2番目のイテレーションであるOrthoAI v2を紹介します。
v2は3つの主要な貢献を通じて 3つの制限に対処します
200のクラウドシナリオの合成ベンチマークで、OrthoAI v2の並列アンサンブルは、計画品質スコアが92.8 pm 4.1$対76.4 pm 8.3$に達し、OrthoAI v1は+21%$相対的ゲインとなり、完全なCPUデプロイ可能性(4.2 pm 0.8$s)を維持した。
論文 参考訳(メタデータ) (2026-03-10T13:03:44Z) - Near-Optimal Clustering in Mixture of Markov Chains [74.3828414695655]
我々は、長さ$H$の軌跡を、大きさ$S$の有限状態空間上の未知のエルゴードマルコフ鎖の1つによって生成される、$T$ trajectories of length $H$の問題を研究する。
我々は、連鎖の遷移核間の重み付きKL分散によって支配されるクラスタリングエラー率に基づいて、インスタンス依存で高い確率の低い境界を導出する。
次に,新しい2段階クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T05:10:40Z) - E(2) Equivariant Neural Networks for Robust Galaxy Morphology
Classification [0.0]
我々は、Galaxy10 DECalsデータセット上で$E(2)$の離散サブグループに同値なGCNNを訓練し、検証し、テストする。
D_16$に同値なアーキテクチャは、テストセットの精度が9,5.52 pm 0.18%である。
全てのGCNNは、同一に構築されたCNNよりも1ピクセルの摂動の影響を受けにくい。
論文 参考訳(メタデータ) (2023-11-02T18:00:02Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Predicting the Stability of Hierarchical Triple Systems with
Convolutional Neural Networks [68.8204255655161]
本稿では,階層型三重項の安定性を予測する畳み込みニューラルネットワークモデルを提案する。
すべてのトレーニングされたモデルは公開されており、純粋な$N$-bodyメソッドよりも200ドルの速さで階層的な3重システムの安定性を予測することができる。
論文 参考訳(メタデータ) (2022-06-24T17:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。