論文の概要: Learning ON Large Datasets Using Bit-String Trees
- arxiv url: http://arxiv.org/abs/2508.17083v1
- Date: Sat, 23 Aug 2025 16:49:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.332875
- Title: Learning ON Large Datasets Using Bit-String Trees
- Title(参考訳): ビット列木を用いた大規模データセットの学習
- Authors: Prashant Gupta,
- Abstract要約: この論文は類似性保存ハッシュ、分類、がんゲノム学の計算方法を発展させている。
Inverted hash table (ComBI) の圧縮BSTを導入する。
GRAFとComBIは,がん患者の生存率のスケーラブルな予測を可能にするサンプル単位の分類可能性の推定に有効であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This thesis develops computational methods in similarity-preserving hashing, classification, and cancer genomics. Standard space partitioning-based hashing relies on Binary Search Trees (BSTs), but their exponential growth and sparsity hinder efficiency. To overcome this, we introduce Compressed BST of Inverted hash tables (ComBI), which enables fast approximate nearest-neighbor search with reduced memory. On datasets of up to one billion samples, ComBI achieves 0.90 precision with 4X-296X speed-ups over Multi-Index Hashing, and also outperforms Cellfishing.jl on single-cell RNA-seq searches with 2X-13X gains. Building on hashing structures, we propose Guided Random Forest (GRAF), a tree-based ensemble classifier that integrates global and local partitioning, bridging decision trees and boosting while reducing generalization error. Across 115 datasets, GRAF delivers competitive or superior accuracy, and its unsupervised variant (uGRAF) supports guided hashing and importance sampling. We show that GRAF and ComBI can be used to estimate per-sample classifiability, which enables scalable prediction of cancer patient survival. To address challenges in interpreting mutations, we introduce Continuous Representation of Codon Switches (CRCS), a deep learning framework that embeds genetic changes into numerical vectors. CRCS allows identification of somatic mutations without matched normals, discovery of driver genes, and scoring of tumor mutations, with survival prediction validated in bladder, liver, and brain cancers. Together, these methods provide efficient, scalable, and interpretable tools for large-scale data analysis and biomedical applications.
- Abstract(参考訳): この論文は類似性保存ハッシュ、分類、がんゲノム学の計算方法を発展させている。
標準的な空間分割に基づくハッシュはバイナリ検索木(BST)に依存しているが、指数関数的な成長とスパーシティは効率を損なう。
これを解決するために,逆ハッシュテーブル(ComBI)の圧縮BSTを導入する。
最大10億のサンプルのデータセットでは、ComBIはMulti-Index Hashingよりも4X-296Xのスピードアップで0.90の精度を達成し、シングルセルRNA-seq検索では2X-13XゲインでCellfishing.jlを上回っている。
ハッシュ構造上に構築したガイドランダムフォレスト(GRAF, Guided Random Forest)は,大域的および局所的な分断,決定木へのブリッジング,および,一般化誤差の低減を図った,木に基づくアンサンブル分類器である。
115のデータセットにわたって、GRAFは競争力または優れた精度を提供し、非教師なしの派生型(uGRAF)はガイド付きハッシュと重要サンプリングをサポートする。
GRAFとComBIは,がん患者の生存率のスケーラブルな予測を可能にするサンプル単位の分類可能性の推定に有効であることを示す。
遺伝的変化を数値ベクトルに埋め込むディープラーニングフレームワークであるCRCS(Continuous Representation of Codon Switches)を導入する。
CRCSは正常と一致しない体細胞突然変異の同定、ドライバ遺伝子の発見、および腫瘍突然変異の評価を可能にし、生存予測は膀胱、肝臓、脳がんで検証される。
これらの手法は、大規模データ分析とバイオメディカル応用のための効率的でスケーラブルで解釈可能なツールを提供する。
関連論文リスト
- Fast and Scalable Gene Embedding Search: A Comparative Study of FAISS and ScaNN [0.3015442485490762]
大規模類似性探索は、ゲノムおよびプロテオミクス配列間の相同性、機能的類似性、新規性を検出するバイオインフォマティクスの基本課題である。
埋め込み型類似性探索法について検討し, 生の配列アライメントを超えて, より深い構造的・機能的パターンを抽出する潜在表現を学習する。
この結果から,メモリと実行効率の両面での計算上の優位性と,検索品質の向上が注目され,従来のアライメント重ツールに代わる有望な代替手段が提供される。
論文 参考訳(メタデータ) (2025-07-22T19:28:54Z) - Unlasting: Unpaired Single-Cell Multi-Perturbation Estimation by Dual Conditional Diffusion Implicit Bridges [68.98973318553983]
本稿では,Dual Diffusion Implicit Bridges (DDIB) に基づくフレームワークを提案する。
我々は、生物学的に意味のある方法で摂動シグナルを伝達するために遺伝子制御ネットワーク(GRN)情報を統合する。
また、サイレント遺伝子を予測し、生成したプロファイルの品質を向上させるためのマスキング機構も組み込んだ。
論文 参考訳(メタデータ) (2025-06-26T09:05:38Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning [53.527506374566485]
本稿では,多エージェント強化学習クラスタフレームワーク,すなわちAR-DBSCANを用いた新しいAdaptive and Robust DBSCANを提案する。
我々は、AR-DBSCANが、NMIおよびARIメトリクスの最大144.1%と175.3%のクラスタリング精度を向上するだけでなく、支配的なパラメータを確実に見つけることができることを示した。
論文 参考訳(メタデータ) (2025-05-07T11:37:23Z) - Large-Scale Targeted Cause Discovery with Data-Driven Learning [66.86881771339145]
本稿では,観測結果から対象変数の因果変数を推定する機械学習手法を提案する。
ローカル推論戦略を用いることで、我々のアプローチは変数数に線形な複雑さを伴ってスケールし、数千の変数に効率的にスケールアップする。
大規模遺伝子制御ネットワークにおける因果関係の同定に優れた性能を示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-08-29T02:21:11Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Fast Scalable and Accurate Discovery of DAGs Using the Best Order Score
Search and Grow-Shrink Trees [2.667401221288548]
有向非巡回グラフ(DAG)学習のためのベストオーダースコアサーチ(BOSS)とグロースシンクツリー(GST)
有向非巡回グラフ(DAG)を学習するためのベストオーダースコアサーチ(BOSS)とGST(Grow-Shrink Tree)を導入する。
論文 参考訳(メタデータ) (2023-10-26T10:03:12Z) - Factorizers for Distributed Sparse Block Codes [45.29870215671697]
分散ブロック符号(SBC)を高速かつ高精度に分解する手法を提案する。
我々の反復分解器は、しきい値に基づく非線形活性化、条件付きランダムサンプリング、および $ell_infty$-based similarity metricを導入している。
CIFAR-100, ImageNet-1K, RAVENデータセット上での4つの深層CNNアーキテクチャの実現可能性を示す。
論文 参考訳(メタデータ) (2023-03-24T12:31:48Z) - CausalBench: A Large-scale Benchmark for Network Inference from
Single-cell Perturbation Data [61.088705993848606]
本稿では,実世界の介入データに対する因果推論手法を評価するベンチマークスイートCausalBenchを紹介する。
CaulBenchには、新しい分散ベースの介入メトリクスを含む、生物学的に動機付けられたパフォーマンスメトリクスが含まれている。
論文 参考訳(メタデータ) (2022-10-31T13:04:07Z) - Learning complex dependency structure of gene regulatory networks from
high dimensional micro-array data with Gaussian Bayesian networks [0.0]
遺伝子発現データセットは、比較的小さなサンプルサイズを持つ数千の遺伝子から構成される。
Glassoアルゴリズムは高次元マイクロアレイデータセットを扱うために提案されている。
既定のGlassoアルゴリズムの修正は、複雑な相互作用構造の問題を克服するために開発されている。
論文 参考訳(メタデータ) (2021-06-28T15:04:35Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。