論文の概要: Accelerating Large-Scale Cheminformatics Using a Byte-Offset Indexing Architecture for Terabyte-Scale Data Integration
- arxiv url: http://arxiv.org/abs/2601.18921v1
- Date: Mon, 26 Jan 2026 19:42:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.045225
- Title: Accelerating Large-Scale Cheminformatics Using a Byte-Offset Indexing Architecture for Terabyte-Scale Data Integration
- Title(参考訳): テラバイト規模のデータ統合のためのByte-Offset Indexing Architectureを用いた大規模ケミノフォマティクスの高速化
- Authors: Malikussaid, Septian Caesar Floresko, Sutiyo,
- Abstract要約: 大規模化学データベースの統合は、現代の化学情報学研究において重要なボトルネックとなっている。
本稿では、PubChem、ChEMBL、eChMoleculesの3つの主要な公共化学リポジトリを統合するケーススタディを提案する。
バイトオフセットインデックス化は,数十億の規模でデータの整合性を保ちながら,ブルートフォースのスケーラビリティ限界を実質的に克服できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of large-scale chemical databases represents a critical bottleneck in modern cheminformatics research, particularly for machine learning applications requiring high-quality, multi-source validated datasets. This paper presents a case study of integrating three major public chemical repositories: PubChem (176 million compounds), ChEMBL, and eMolecules, to construct a curated dataset for molecular property prediction. We investigate whether byte-offset indexing can practically overcome brute-force scalability limits while preserving data integrity at hundred-million scale. Our results document the progression from an intractable brute-force search algorithm with projected 100-day runtime to a byte-offset indexing architecture achieving 3.2-hour completion-a 740-fold performance improvement through algorithmic complexity reduction from O(NxM) to O(N+M). Systematic validation of 176 million database entries revealed hash collisions in InChIKey molecular identifiers, necessitating pipeline reconstruction using collision-free full InChI strings. We present performance benchmarks, quantify trade-offs between storage overhead and scientific rigor, and compare our approach with alternative large-scale integration strategies. The resulting system successfully extracted 435,413 validated compounds and demonstrates generalizable principles for large-scale scientific data integration where uniqueness constraints exceed hash-based identifier capabilities.
- Abstract(参考訳): 大規模ケミカルデータベースの統合は、特に高品質なマルチソース検証データセットを必要とする機械学習アプリケーションにおいて、現代の化学情報学研究において重要なボトルネックとなっている。
本稿では, PubChem (176百万の化合物), ChEMBL, eMoleculesの3つの主要な公共化学リポジトリを統合することにより, 分子特性予測のためのキュレートされたデータセットを構築するケーススタディを提案する。
バイトオフセットインデックス化は,数十億の規模でデータの整合性を保ちながら,ブルートフォースのスケーラビリティ限界を実質的に克服できるかどうかを検討する。
提案手法は,100日周期の予測可能なブルートフォース探索アルゴリズムから,O(NxM)からO(N+M)へのアルゴリズム的複雑性低減による3.2時間完了,740倍の性能向上を実現するバイトオフセットインデックスアーキテクチャへ移行した。
InChIKey分子識別子に1億7600万のデータベースエントリの体系的検証を行い、衝突のない完全なInChI文字列を用いたパイプライン再構築の必要性を明らかにした。
性能ベンチマークを提示し、ストレージオーバーヘッドと科学的厳密さのトレードオフを定量化し、我々のアプローチを他の大規模統合戦略と比較する。
得られたシステムは、435,413個の検証された化合物を抽出し、一意性制約がハッシュベースの識別子能力を超えるような大規模科学的データ統合のための一般化可能な原理を実証した。
関連論文リスト
- Towards Compositional Generalization in LLMs for Smart Contract Security: A Case Study on Reentrancy Vulnerabilities [35.39583123277091]
本稿では,原子タスクの分解と融合に基づくポストトレーニングアルゴリズムを提案する。
再帰的脆弱性検出タスクを4つの線形独立原子タスクに分解する。
合成データセットのトレーニングにより、3つのコンパイラ検証データセットを生成する。
次に、Slitherツールを使用して、制御フローグラフとデータフローグラフから構造情報を抽出する。
論文 参考訳(メタデータ) (2026-01-11T13:52:07Z) - Deepfake Detection that Generalizes Across Benchmarks [48.85953407706351]
ディープフェイク検出器の非表示操作技術への一般化は、実用的展開の課題である。
この研究は、基礎となる事前学習された視覚エンコーダのパラメータ効率適応により、ロバストな一般化が達成可能であることを示す。
提案手法は、平均的クロスデータセットAUROCにおける、より複雑な、最新のアプローチよりも優れた、最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-08T12:03:56Z) - Innovative tokenisation of structured data for LLM training [0.0]
本稿では,構造化されたデータを大規模言語モデル(LLM)の訓練に適したシーケンシャルな形式に変換する,新しいハイブリッドなトークン化手法を提案する。
提案手法は効率が高く, ネットワークフロー3300万回以上を5時間以内で処理し, 6.18:1の有意なデータ圧縮比を達成した。
このプロセスは10億以上のトークンを計算的に管理可能なコーパスとなり、構造化されたデータ上で基礎モデルをトレーニングするための実行可能で一般化可能な経路を確立した。
論文 参考訳(メタデータ) (2025-08-03T09:29:50Z) - Efficient Conformance Checking of Rich Data-Aware Declare Specifications (Extended) [49.46686813437884]
一般的なデータ型やデータ条件とリッチな設定で,データを考慮した最適アライメントを計算可能であることを示す。
これは、制御フローとデータ依存関係を扱うために、よく知られた2つのアプローチを慎重に組み合わせることで達成される。
論文 参考訳(メタデータ) (2025-06-30T10:16:21Z) - Materials Discovery With Quantum-Enhanced Machine Learning Algorithms [0.3495246564946556]
量子強化機械学習アルゴリズムを用いて,低ホール再編成エネルギーを持つ新規ヘテロアセン構造を推定する。
我々は、以前の大規模仮想スクリーニングで生成された化学データを活用し、3つの初期訓練データセットを構築した。
符号化ビット数が増加するにつれて,予測化合物の品質が向上するのを観察する。
論文 参考訳(メタデータ) (2025-03-12T16:27:47Z) - Scalable Overload-Aware Graph-Based Index Construction for 10-Billion-Scale Vector Similarity Search [18.419278931226756]
SOGAICは超大規模ベクトルデータベースに適したグラフベースのANNSインデックス構築システムである。
提案手法は実世界の産業用検索エンジンに導入され,毎日100億件以上のベクトルを処理している。
論文 参考訳(メタデータ) (2025-02-28T04:03:23Z) - Discovering physical laws with parallel symbolic enumeration [67.36739393470869]
並列記号列挙法(PSE)を導入し,限られたデータから汎用数学的表現を効率的に抽出する。
実験の結果,PSEは最先端のベースラインアルゴリズムと比較して精度が高く,計算速度も速いことがわかった。
PSEは、記号的、解釈可能なモデルの正確で効率的なデータ駆動による発見の進歩を表している。
論文 参考訳(メタデータ) (2024-07-05T10:41:15Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Fast, Compact and Highly Scalable Visual Place Recognition through
Sequence-based Matching of Overloaded Representations [33.50309671827902]
我々は、非常に大規模な1000万の場所データセットにおいて、いかに効果的に場所認識率が達成できるかを示す。
我々は、非常に大規模な1000万の場所データセットにおいて、いかに効果的に場所認識率が達成できるかを示す。
論文 参考訳(メタデータ) (2020-01-23T10:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。