論文の概要: Fast and Scalable Gene Embedding Search: A Comparative Study of FAISS and ScaNN
- arxiv url: http://arxiv.org/abs/2507.16978v1
- Date: Tue, 22 Jul 2025 19:28:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.752301
- Title: Fast and Scalable Gene Embedding Search: A Comparative Study of FAISS and ScaNN
- Title(参考訳): 高速かつスケーラブルな遺伝子埋め込み検索:FAISSとScaNNの比較研究
- Authors: Mohammad Saleh Refahi, Gavin Hearne, Harrison Muller, Kieran Lynch, Bahrad A. Sokhansanj, James R. Brown, Gail Rosen,
- Abstract要約: 大規模類似性探索は、ゲノムおよびプロテオミクス配列間の相同性、機能的類似性、新規性を検出するバイオインフォマティクスの基本課題である。
埋め込み型類似性探索法について検討し, 生の配列アライメントを超えて, より深い構造的・機能的パターンを抽出する潜在表現を学習する。
この結果から,メモリと実行効率の両面での計算上の優位性と,検索品質の向上が注目され,従来のアライメント重ツールに代わる有望な代替手段が提供される。
- 参考スコア(独自算出の注目度): 0.3015442485490762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exponential growth of DNA sequencing data has outpaced traditional heuristic-based methods, which struggle to scale effectively. Efficient computational approaches are urgently needed to support large-scale similarity search, a foundational task in bioinformatics for detecting homology, functional similarity, and novelty among genomic and proteomic sequences. Although tools like BLAST have been widely used and remain effective in many scenarios, they suffer from limitations such as high computational cost and poor performance on divergent sequences. In this work, we explore embedding-based similarity search methods that learn latent representations capturing deeper structural and functional patterns beyond raw sequence alignment. We systematically evaluate two state-of-the-art vector search libraries, FAISS and ScaNN, on biologically meaningful gene embeddings. Unlike prior studies, our analysis focuses on bioinformatics-specific embeddings and benchmarks their utility for detecting novel sequences, including those from uncharacterized taxa or genes lacking known homologs. Our results highlight both computational advantages (in memory and runtime efficiency) and improved retrieval quality, offering a promising alternative to traditional alignment-heavy tools.
- Abstract(参考訳): DNAシークエンシングデータの指数関数的増加は、効果的にスケールするのに苦労する従来のヒューリスティックベースの手法よりも大きくなっている。
遺伝的およびプロテオミクス配列間の相同性、機能的類似性、新規性を検出するバイオインフォマティクスの基本課題である大規模類似性探索を支援するために、効率的な計算手法が緊急に必要である。
BLASTのようなツールは広く使われており、多くのシナリオで有効である。
本研究では, 埋め込み型類似性探索手法について検討し, 生の配列アライメントを超えて, より深い構造的・機能的パターンを抽出する潜在表現を学習する。
FAISSとScaNNの2つの最先端ベクター検索ライブラリを生物学的に有意な遺伝子埋め込みにより体系的に評価した。
従来の研究とは異なり、我々の分析はバイオインフォマティクス固有の埋め込みに焦点をあて、未知の分類群や既知のホモログを欠いた遺伝子を含む新しい配列を検出するためのそれらの有用性をベンチマークする。
この結果から,メモリと実行効率の両面での計算上の優位性と,検索品質の向上が注目され,従来のアライメント重ツールに代わる有望な代替手段が提供される。
関連論文リスト
- scMamba: A Scalable Foundation Model for Single-Cell Multi-Omics Integration Beyond Highly Variable Feature Selection [5.139014238424409]
scMambaはシングルセルのマルチオミクスデータを事前のフィーチャ選択を必要とせずに統合するために設計されたモデルである。
scMambaは、高次元のスパースシングルセルマルチオミクスデータから豊富な生物学的洞察を蒸留する。
われわれは scMamba を大規模シングルセルマルチオミクス統合の強力なツールとして位置づけた。
論文 参考訳(メタデータ) (2025-06-25T12:58:01Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Discovering physical laws with parallel combinatorial tree search [57.05912962368898]
記号回帰は、データから簡潔で解釈可能な数学的表現を発見する能力のおかげで、科学研究において重要な役割を果たす。
既存のアルゴリズムは10年以上にわたって精度と効率の重大なボトルネックに直面してきた。
制約データから汎用数学的表現を効率的に抽出する並列木探索(PCTS)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T10:41:15Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Histo-Genomic Knowledge Distillation For Cancer Prognosis From Histopathology Whole Slide Images [7.5123289730388825]
ゲノムインフォームドハイパーアテンションネットワーク(G-HANet)は、トレーニング中にヒストリーゲノム知識を効果的に蒸留することができる。
ネットワークは、クロスモーダル・アソシエーション・ブランチ(CAB)とハイパーアテンション・サバイバル・ブランチ(HSB)から構成される。
論文 参考訳(メタデータ) (2024-03-15T06:20:09Z) - DNA Sequence Classification with Compressors [0.0]
本研究は,DNA配列解析に適した圧縮機を用いたパラメータフリー分類法を新たに導入する。
この手法は、精度の観点から現在の最先端と整合するだけでなく、従来の機械学習手法よりもリソース効率の良い代替手段を提供する。
論文 参考訳(メタデータ) (2024-01-25T09:17:19Z) - Multilayer Multiset Neuronal Networks -- MMNNs [55.2480439325792]
本研究は,2層以上の類似性ニューロンを組み込んだ多層神経回路網について述べる。
また,回避すべき画像領域に割り当てられる反プロトタイプ点の利用についても検討した。
論文 参考訳(メタデータ) (2023-08-28T12:55:13Z) - CausalBench: A Large-scale Benchmark for Network Inference from
Single-cell Perturbation Data [61.088705993848606]
本稿では,実世界の介入データに対する因果推論手法を評価するベンチマークスイートCausalBenchを紹介する。
CaulBenchには、新しい分散ベースの介入メトリクスを含む、生物学的に動機付けられたパフォーマンスメトリクスが含まれている。
論文 参考訳(メタデータ) (2022-10-31T13:04:07Z) - Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。
本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。
シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-06T13:10:37Z) - Data-Driven Logistic Regression Ensembles With Applications in Genomics [0.0]
本稿では,正規化とアンサンブル技術を融合した高次元バイナリ分類手法を提案する。
医学ゲノミクスの応用において,本手法は競合する手法によって見落とされた重要なバイオマーカーを同定する。
論文 参考訳(メタデータ) (2021-02-17T05:57:26Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Heterogeneous Network Representation Learning: A Unified Framework with
Survey and Benchmark [57.10850350508929]
我々は、異種ネットワーク埋め込み(HNE)に関する既存の研究を要約し、評価するための統一的なフレームワークを提供することを目指している。
最初のコントリビューションとして、既存のHNEアルゴリズムのメリットを体系的に分類し分析するための一般的なパラダイムを提供する。
第2のコントリビューションとして、さまざまなソースから、スケール、構造、属性/ラベルの可用性などに関するさまざまな特性を備えた4つのベンチマークデータセットを作成します。
第3のコントリビューションとして、13の人気のあるHNEアルゴリズムに対するフレンドリなインターフェースを作成し、複数のタスクと実験的な設定に対して、それらの全周比較を提供する。
論文 参考訳(メタデータ) (2020-04-01T03:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。