論文の概要: Weighted Diversified Sampling for Efficient Data-Driven Single-Cell Gene-Gene Interaction Discovery
- arxiv url: http://arxiv.org/abs/2410.15616v1
- Date: Mon, 21 Oct 2024 03:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:12:44.349537
- Title: Weighted Diversified Sampling for Efficient Data-Driven Single-Cell Gene-Gene Interaction Discovery
- Title(参考訳): 効率的なデータ駆動型単一セル遺伝子間相互作用探索のための重み付き多様化サンプリング
- Authors: Yifan Wu, Yuntao Yang, Zirui Liu, Zhao Li, Khushbu Pahwa, Rongbin Li, Wenjin Zheng, Xia Hu, Zhaozhuo Xu,
- Abstract要約: 本稿では,遺伝子・遺伝子相互作用の探索に先進的なトランスフォーマーモデルを活用する,データ駆動型計算ツールを活用した革新的なアプローチを提案する。
新たな重み付き多様化サンプリングアルゴリズムは、データセットのたった2パスで、各データサンプルの多様性スコアを算出する。
- 参考スコア(独自算出の注目度): 56.622854875204645
- License:
- Abstract: Gene-gene interactions play a crucial role in the manifestation of complex human diseases. Uncovering significant gene-gene interactions is a challenging task. Here, we present an innovative approach utilizing data-driven computational tools, leveraging an advanced Transformer model, to unearth noteworthy gene-gene interactions. Despite the efficacy of Transformer models, their parameter intensity presents a bottleneck in data ingestion, hindering data efficiency. To mitigate this, we introduce a novel weighted diversified sampling algorithm. This algorithm computes the diversity score of each data sample in just two passes of the dataset, facilitating efficient subset generation for interaction discovery. Our extensive experimentation demonstrates that by sampling a mere 1\% of the single-cell dataset, we achieve performance comparable to that of utilizing the entire dataset.
- Abstract(参考訳): 遺伝子と遺伝子間の相互作用は、複雑なヒト疾患の顕在化に重要な役割を果たす。
重要な遺伝子と遺伝子間の相互作用を明らかにすることは難しい課題である。
本稿では,トランスフォーマーモデルを利用したデータ駆動型計算ツールによる遺伝子・遺伝子間相互作用の探索手法を提案する。
Transformerモデルの有効性にもかかわらず、そのパラメータ強度はデータ摂取のボトルネックを示し、データの効率を阻害する。
これを軽減するために、新しい重み付き多様化サンプリングアルゴリズムを導入する。
このアルゴリズムは、データセットのたった2パスで各データサンプルの多様性スコアを計算し、相互作用発見のための効率的なサブセット生成を容易にする。
大規模な実験により、単一セルデータセットのわずか1\%をサンプリングすることで、データセット全体の利用に匹敵するパフォーマンスが得られることが示された。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Robust Multi-view Co-expression Network Inference [8.697303234009528]
トランスクリプトームデータから遺伝子共発現ネットワークを推定することは、多くの課題をもたらす。
複数の独立研究から高次元グラフ推論のためのロバストな手法を提案する。
論文 参考訳(メタデータ) (2024-09-30T06:30:09Z) - Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen [76.02070962797794]
マルチモーダル単細胞数に対するフローベース条件生成モデルであるセルフロー・フォー・ジェネレーションを提案する。
本研究は, 新規な生成タスクを考慮に入れた上で, 重要な生物学的データ特性の回復性の向上を示唆するものである。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Unlocking the Power of Multi-institutional Data: Integrating and Harmonizing Genomic Data Across Institutions [3.5489676012585236]
共通遺伝子を超えて情報を保存するための統合的特徴を導出するためにブリッジモデルを導入する。
このモデルは、GenIE BPCデータにおいて、6種類のがん種にわたる患者の生存を予測するのに一貫して優れている。
論文 参考訳(メタデータ) (2024-01-30T23:25:05Z) - Genetic heterogeneity analysis using genetic algorithm and network
science [2.6166087473624318]
ゲノムワイド・アソシエーション(GWAS)は、疾患に感受性のある遺伝的変数を同定することができる。
遺伝的効果に絡み合った遺伝的変数は、しばしば低い効果サイズを示す。
本稿では,FCSNet(Feature Co-Selection Network)という,GWASのための新しい特徴選択機構を提案する。
論文 参考訳(メタデータ) (2023-08-12T01:28:26Z) - Fast and Functional Structured Data Generators Rooted in
Out-of-Equilibrium Physics [62.997667081978825]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Personalized Decentralized Multi-Task Learning Over Dynamic
Communication Graphs [59.96266198512243]
本稿では,正と負の相関関係を持つタスクに対する分散・フェデレーション学習アルゴリズムを提案する。
本アルゴリズムでは,タスク間の相関関係を自動的に計算し,コミュニケーショングラフを動的に調整して相互に有益なタスクを接続し,互いに悪影響を及ぼす可能性のあるタスクを分離する。
合成ガウスデータセットと大規模セレブ属性(CelebA)データセットについて実験を行った。
論文 参考訳(メタデータ) (2022-12-21T18:58:24Z) - Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via
Generative Models [16.436293069942312]
我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。
本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。
提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
論文 参考訳(メタデータ) (2021-08-27T18:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。