論文の概要: Optirank: classification for RNA-Seq data with optimal ranking reference
genes
- arxiv url: http://arxiv.org/abs/2301.04653v1
- Date: Wed, 11 Jan 2023 10:49:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 15:22:02.215761
- Title: Optirank: classification for RNA-Seq data with optimal ranking reference
genes
- Title(参考訳): optirank: 最適ランキング参照遺伝子を用いたrna-seqデータの分類
- Authors: Paola Malsot (1), Filipe Martins (1), Didier Trono (1), Guillaume
Obozinski (1, 2 and 3) ((1) Ecole Polytechnique F\'ed\'erale de Lausanne, (2)
Swiss Data Science Center, (3) ETH Z\"urich)
- Abstract要約: そこで我々は,ロジスティック回帰モデルであるOptiicrankを提案し,モデルと遺伝子のパラメータを同時に学習し,ランキングの基準セットとして使用する。
また、列車データと試験データの間に異なる種類の分散シフトを示す実際の分類タスクについても検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classification algorithms using RNA-Sequencing (RNA-Seq) data as input are
used in a variety of biological applications. By nature, RNA-Seq data is
subject to uncontrolled fluctuations both within and especially across
datasets, which presents a major difficulty for a trained classifier to
generalize to an external dataset. Replacing raw gene counts with the rank of
gene counts inside an observation has proven effective to mitigate this
problem. However, the rank of a feature is by definition relative to all other
features, including highly variable features that introduce noise in the
ranking. To address this problem and obtain more robust ranks, we propose a
logistic regression model, optirank, which learns simultaneously the parameters
of the model and the genes to use as a reference set in the ranking. We show
the effectiveness of this method on simulated data. We also consider real
classification tasks, which present different kinds of distribution shifts
between train and test data. Those tasks concern a variety of applications,
such as cancer of unknown primary classification, identification of specific
gene signatures, and determination of cell type in single-cell RNA-Seq
datasets. On those real tasks, optirank performs at least as well as the
vanilla logistic regression on classical ranks, while producing sparser
solutions. In addition, to increase the robustness against dataset shifts, we
propose a multi-source learning scheme and demonstrate its effectiveness when
used in combination with rank-based classifiers.
- Abstract(参考訳): RNAシークエンシング(RNA-Seq)データを入力として使用する分類アルゴリズムは、様々な生物学的応用に用いられている。
本質的に、RNA-Seqデータはデータセット内、特にデータセット間の制御不能な変動を受けており、トレーニングされた分類器が外部データセットに一般化するのが大きな困難である。
生の遺伝子数を観察中の遺伝子数に置き換えることは、この問題を軽減するのに有効であることが証明されている。
しかし、特徴のランクは、そのランクにノイズをもたらす高度に可変な特徴を含む、他のすべての特徴と比較して定義される。
この問題に対処し、より堅牢なランクを得るために、モデルと遺伝子のパラメータを同時に学習し、ランキングの参照セットとして使用するロジスティック回帰モデル、オプティランクを提案する。
シミュレーションデータに対する本手法の有効性を示す。
また,列車データと試験データの間で異なる分布シフトを示す実分類タスクについても検討する。
これらのタスクは、未知の一次分類のがん、特定の遺伝子シグネチャの同定、単一細胞RNA-Seqデータセットにおける細胞型の決定など、様々な応用に関係している。
これらの実際のタスクでは、optirankは少なくとも古典的なランクのバニラロジスティック回帰と同様に、スパルサー解を生成する。
さらに,データセットシフトに対するロバスト性を高めるために,多元学習方式を提案し,ランクベースの分類器と組み合わせて使用する場合の有効性を示す。
関連論文リスト
- Exploring Beyond Logits: Hierarchical Dynamic Labeling Based on Embeddings for Semi-Supervised Classification [49.09505771145326]
モデル予測に依存しない階層型動的ラベル付け(HDL)アルゴリズムを提案し,画像埋め込みを用いてサンプルラベルを生成する。
本手法は,半教師付き学習における擬似ラベル生成のパラダイムを変える可能性がある。
論文 参考訳(メタデータ) (2024-04-26T06:00:27Z) - Feature Selection via Robust Weighted Score for High Dimensional Binary
Class-Imbalanced Gene Expression Data [1.2891210250935148]
非平衡データに対する頑健な重み付けスコア (ROWSU) は, クラス不均衡問題を用いた高次元遺伝子発現二項分類における最も識別性の高い特徴を選択するために提案される。
ROWSU法の性能を6ドルの遺伝子発現データセットで評価した。
論文 参考訳(メタデータ) (2024-01-23T11:22:03Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - Fast and Functional Structured Data Generators Rooted in
Out-of-Equilibrium Physics [62.997667081978825]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Improving the quality of generative models through Smirnov
transformation [1.3492000366723798]
本稿では,ジェネレータの出力として使用される新しいアクティベーション関数を提案する。
これはスミルノフ確率変換に基づいており、生成されたデータの品質を改善するために特別に設計されている。
論文 参考訳(メタデータ) (2021-10-29T17:01:06Z) - A systematic evaluation of methods for cell phenotype classification
using single-cell RNA sequencing data [7.62849213621469]
本研究は、細胞表現型を分類する13の一般的な教師付き機械学習アルゴリズムを評価する。
研究結果から、ElasticNetと対話は、中小のデータセットで最善を尽くしたことが示された。
論文 参考訳(メタデータ) (2021-10-01T23:24:15Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z) - Approximate kNN Classification for Biomedical Data [1.1852406625172218]
Single-cell RNA-seq (scRNA-seq) は、将来性はあるが重要な計算課題を持つDNAシークエンシング技術である。
scRNA-seqデータにおけるkNN分類のタスクに近似した近接探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-03T18:30:43Z) - Two-step penalised logistic regression for multi-omic data with an
application to cardiometabolic syndrome [62.997667081978825]
我々は,各層で変数選択を行うマルチオミックロジスティック回帰に対する2段階のアプローチを実装した。
私たちのアプローチは、可能な限り多くの関連する予測子を選択することを目標とすべきです。
提案手法により,分子レベルでの心筋メタボリックシンドロームの特徴を同定することができる。
論文 参考訳(メタデータ) (2020-08-01T10:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。