論文の概要: Enhancing Omics Cohort Discovery for Research on Neurodegeneration through Ontology-Augmented Embedding Models
- arxiv url: http://arxiv.org/abs/2506.13467v1
- Date: Mon, 16 Jun 2025 13:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.495497
- Title: Enhancing Omics Cohort Discovery for Research on Neurodegeneration through Ontology-Augmented Embedding Models
- Title(参考訳): オントロジー強化埋め込みモデルによる神経変性研究のための眼科コホート発見の促進
- Authors: José A. Pardo, Alicia Gómez-Pascual, José T. Palma, Juan A. Botía,
- Abstract要約: NeuroEmbedは、コホートやサンプルを表現するための意味論的に正確な埋め込み空間のエンジニアリングのためのアプローチである。
本手法は,(1)公開リポジトリからのコホート抽出,(2)バイオメディカルクラスタリングと組込み空間でのクラスタリングを用いたコホートとサンプルのメタデータの半自動正規化と強化,(3)標準化されたメタデータ次元のランダムな組み合わせに基づくコホートとサンプルの問合せデータセットの自動生成,(4)クエリを最適化するためのドメイン固有の埋め込み器の微調整の4段階からなる。
- 参考スコア(独自算出の注目度): 0.14999444543328289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing volume of omics and clinical data generated for neurodegenerative diseases (NDs) requires new approaches for their curation so they can be ready-to-use in bioinformatics. NeuroEmbed is an approach for the engineering of semantically accurate embedding spaces to represent cohorts and samples. The NeuroEmbed method comprises four stages: (1) extraction of ND cohorts from public repositories; (2) semi-automated normalization and augmentation of metadata of cohorts and samples using biomedical ontologies and clustering on the embedding space; (3) automated generation of a natural language question-answering (QA) dataset for cohorts and samples based on randomized combinations of standardized metadata dimensions and (4) fine-tuning of a domain-specific embedder to optimize queries. We illustrate the approach using the GEO repository and the PubMedBERT pretrained embedder. Applying NeuroEmbed, we semantically indexed 2,801 repositories and 150,924 samples. Amongst many biology-relevant categories, we normalized more than 1,700 heterogeneous tissue labels from GEO into 326 unique ontology-aligned concepts and enriched annotations with new ontology-aligned terms, leading to a fold increase in size for the metadata terms between 2.7 and 20 fold. After fine-tuning PubMedBERT with the QA training data augmented with the enlarged metadata, the model increased its mean Retrieval Precision from 0.277 to 0.866 and its mean Percentile Rank from 0.355 to 0.896. The NeuroEmbed methodology for the creation of electronic catalogues of omics cohorts and samples will foster automated bioinformatic pipelines construction. The NeuroEmbed catalogue of cohorts and samples is available at https://github.com/JoseAdrian3/NeuroEmbed.
- Abstract(参考訳): 神経変性疾患(ND)のために生成されるオミクスと臨床データの増加は、バイオインフォマティクスで使えるように、その治療に新しいアプローチを必要とする。
NeuroEmbedは、コホートやサンプルを表現するための意味論的に正確な埋め込み空間のエンジニアリングのためのアプローチである。
本発明のNeuroEmbed法は,(1)公開リポジトリからのNDコホート抽出,(2)生体オントロジーおよび埋め込み空間上のクラスタリングを用いたコホートとサンプルのメタデータの半自動正規化と増強,(3)標準化されたメタデータ次元のランダムな組み合わせに基づくコホートとサンプルに対するQAデータセットの自動生成,(4)クエリを最適化するためのドメイン固有の埋め込みの微調整の4段階からなる。
本稿では,GEOレポジトリとPubMedBERTプリトレーニング済み埋め込みを用いたアプローチについて説明する。
NeuroEmbedを応用して、2,801のリポジトリと150,924のサンプルを意味的にインデックス化した。
多くの生物学関連カテゴリの中で、GEOから326のユニークなオントロジー整列概念に1,700以上の異種組織ラベルを正規化し、新しいオントロジー整列用語でアノテーションを充実させ、メタデータ用語の2.7から20倍の大きさが拡大した。
拡張メタデータを付加したQAトレーニングデータを用いたPubMedBERTの微調整後,平均検索精度は0.277から0.866に,平均パーセンタイルランクは0.355から0.896に向上した。
バイオニクスコホートとサンプルの電子カタログを作成するためのNeuroEmbedの方法論は、自動バイオインフォマティクスパイプラインの構築を促進する。
NeuroEmbedのコホートとサンプルのカタログはhttps://github.com/JoseAdrian3/NeuroEmbedで公開されている。
関連論文リスト
- A Meta-GNN approach to personalized seizure detection and classification [53.906130332172324]
本稿では,特定の患者に限られた発作サンプルから迅速に適応できるパーソナライズされた発作検出・分類フレームワークを提案する。
トレーニング患者の集合からグローバルモデルを学ぶメタGNNベースの分類器を訓練する。
本手法は, 未確認患者20回に限って, 精度82.7%, F1スコア82.08%を達成し, ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-11-01T14:12:58Z) - Integrative Imaging Informatics for Cancer Research: Workflow Automation
for Neuro-oncology (I3CR-WANO) [0.12175619840081271]
我々は,多系列ニューロオンコロジーMRIデータの集約と処理のための人工知能ベースのソリューションを提案する。
エンド・ツー・エンドのフレームワーク i) アンサンブル分類器を用いてMRIの配列を分類し, i) 再現可能な方法でデータを前処理し, iv) 腫瘍組織サブタイプを規定する。
欠落したシーケンスに対して堅牢であり、専門的なループアプローチを採用しており、セグメンテーションの結果は放射線学者によって手動で洗練される可能性がある。
論文 参考訳(メタデータ) (2022-10-06T18:23:42Z) - Deeper Clinical Document Understanding Using Relation Extraction [0.0]
名前付きエンティティ認識(NER)と関係抽出(RE)モデルからなるテキストマイニングフレームワークを提案する。
我々は2つの新しいREモデルアーキテクチャを導入し、BioBERTをベースとした精度最適化アーキテクチャと、フル接続ニューラルネットワーク(FCNN)上のクラフト機能を活用した速度最適化アーキテクチャを紹介した。
本稿では,この枠組みの実践的応用として,バイオメディカル知識グラフの構築と臨床コードへの実体マッピングの精度向上について述べる。
論文 参考訳(メタデータ) (2021-12-25T17:14:13Z) - Score-based Generative Modeling in Latent Space [93.8985523558869]
スコアベース生成モデル(SGM)は,最近,サンプル品質と分布範囲の両面で顕著な結果を示した。
本稿では,Latent Score-based Generative Model (LSGM)を提案する。
データから潜在空間への移動により、より表現力のある生成モデルをトレーニングし、非連続データにSGMを適用し、よりスムーズなSGMをより小さな空間で学習することができる。
論文 参考訳(メタデータ) (2021-06-10T17:26:35Z) - Data Augmentation in High Dimensional Low Sample Size Setting Using a
Geometry-Based Variational Autoencoder [0.1529342790344802]
幾何に基づく変分オートエンコーダを用いて高次元低サンプルサイズ(HDLSS)設定でデータ拡張を行う新しい手法を提案する。
我々のアプローチは、リーマン多様体として見られるVAEの適切な潜在空間モデリングと、より有意義なサンプルを生成する新しい生成スキームを組み合わせる。
論文 参考訳(メタデータ) (2021-04-30T18:10:33Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。