論文の概要: Information retrieval in single cell chromatin analysis using TF-IDF
transformation methods
- arxiv url: http://arxiv.org/abs/2212.05184v1
- Date: Sat, 10 Dec 2022 02:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 18:33:49.370843
- Title: Information retrieval in single cell chromatin analysis using TF-IDF
transformation methods
- Title(参考訳): TF-IDF変換法による単一細胞クロマチン分析における情報検索
- Authors: Mehrdad Zandigohar and Yang Dai
- Abstract要約: トランスポサーゼアクセシブル(scATAC-seq)の単細胞シークエンシングアッセイは、数千の細胞のゲノムワイドアクセシビリティを評価する。
この分析は、データの高次元性と空間性に起因する課題を提示する。
scATAC-seqデータを解析する際のベストプラクティスは明らかではない。
- 参考スコア(独自算出の注目度): 0.7734726150561089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-cell sequencing assay for transposase-accessible chromatin
(scATAC-seq) assesses genome-wide chromatin accessibility in thousands of cells
to reveal regulatory landscapes in high resolutions. However, the analysis
presents challenges due to the high dimensionality and sparsity of the data.
Several methods have been developed, including transformation techniques of
term-frequency inverse-document frequency (TF-IDF), dimension reduction methods
such as singular value decomposition (SVD), factor analysis, and autoencoders.
Yet, a comprehensive study on the mentioned methods has not been fully
performed. It is not clear what is the best practice when analyzing scATAC-seq
data. We compared several scenarios for transformation and dimension reduction
as well as the SVD-based feature analysis to investigate potential enhancements
in scATAC-seq information retrieval. Additionally, we investigate if
autoencoders benefit from the TF-IDF transformation. Our results reveal that
the TF-IDF transformation generally leads to improved clustering and
biologically relevant feature extraction.
- Abstract(参考訳): トランスポサーゼアクセシブルクロマチン(scATAC-seq)の単細胞シークエンシングアッセイは、数千の細胞においてゲノムワイドクロマチンアクセシビリティを評価し、高解像度で制御された景観を明らかにする。
しかし,この解析では,データの高次元化とスパース性が問題となっている。
項周波数逆文書周波数(TF-IDF)の変換技術、特異値分解(SVD)や因子分析、オートエンコーダなど、いくつかの手法が開発されている。
しかし、上記の方法に関する総合的な研究は行われていない。
scATAC-seqデータを解析する際のベストプラクティスは明らかではない。
SVDに基づく特徴解析と変換・次元縮小のシナリオを比較し,SCATAC-seq情報検索の潜在的な拡張について検討した。
さらに、TF-IDF変換によるオートエンコーダの利点についても検討する。
その結果,TF-IDF変換は一般にクラスタリングの改善と生物学的に関連する特徴抽出につながることがわかった。
関連論文リスト
- Multimodal Prototyping for cancer survival prediction [45.61869793509184]
ギガピクセルヒストロジー全体スライディング画像(WSI)と転写学的プロファイルを組み合わせたマルチモーダルサバイバル法は,患者の予後と成層化に特に有望である。
現在のアプローチでは、WSIを小さなパッチ(>10,000パッチ)にトークン化し、トランスクリプトミクスを遺伝子グループに分割し、結果を予測するためにTransformerを使用して統合する。
このプロセスは多くのトークンを生成し、これは注意を計算するための高いメモリ要求をもたらし、ポストホック解釈可能性分析を複雑にする。
我々のフレームワークは、新しい解釈可能性解析を解き放ちながら、はるかに少ない計算で最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-06-28T20:37:01Z) - Scalable Amortized GPLVMs for Single Cell Transcriptomics Data [9.010523724015398]
大規模単細胞RNA-seqデータの解析には次元化が不可欠である。
改良されたモデル、償却変分モデル(BGPLVM)を導入する。
BGPLVMは、特殊なエンコーダ、カーネル、そして可能性設計を備えたシングルセルRNA-seq向けに調整されている。
論文 参考訳(メタデータ) (2024-05-06T21:54:38Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - K-Nearest-Neighbors Induced Topological PCA for scRNA Sequence Data
Analysis [0.3683202928838613]
永続ラプラシアン(PL)法とL$_2,1$ノルム正規化を組み合わせたトポロジカルプライマリコンポーネント分析(tPCA)法を提案する。
さらに, k-Nearest-Neighbor (kNN) の永続ラプラス的手法を導入し, 永続ラプラス的手法の堅牢性を向上させる。
提案したtPCA法とkNN-tPCA法の有効性を,11種類のscRNA-seqデータセット上で検証した。
論文 参考訳(メタデータ) (2023-10-23T03:07:50Z) - PhagoStat a scalable and interpretable end to end framework for
efficient quantification of cell phagocytosis in neurodegenerative disease
studies [0.0]
本稿では,食欲活動の定量化と分析を行うためのエンドツーエンド,スケーラブル,汎用的なリアルタイムフレームワークを提案する。
提案するパイプラインでは,大規模なデータセットを処理でき,データ品質検証モジュールも備えている。
我々はこのパイプラインをFTDの微小グリア細胞食細胞解析に応用し,統計的に信頼性の高い結果を得た。
論文 参考訳(メタデータ) (2023-04-26T18:10:35Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Modelling Technical and Biological Effects in scRNA-seq data with
Scalable GPLVMs [6.708052194104378]
我々は,ガウス過程潜在変数モデルである確率的非線形次元減少に対する一般的なアプローチを拡張し,大規模単一セルデータセットに拡張する。
鍵となる考え方は、高速な変動推論を可能にする下位境界の分解可能性を保存する拡張カーネルを使用することである。
論文 参考訳(メタデータ) (2022-09-14T15:25:15Z) - Preservation of High Frequency Content for Deep Learning-Based Medical
Image Classification [74.84221280249876]
大量の胸部ラジオグラフィーの効率的な分析は、医師や放射線技師を助けることができる。
本稿では,視覚情報の効率的な識別と符号化のための離散ウェーブレット変換(DWT)を提案する。
論文 参考訳(メタデータ) (2022-05-08T15:29:54Z) - Brain Image Synthesis with Unsupervised Multivariate Canonical
CSC$\ell_4$Net [122.8907826672382]
我々は,新しいCSC$ell_4$Netを用いて,イントレとイントラモーダルの両方にまたがる専用特徴を学習することを提案する。
論文 参考訳(メタデータ) (2021-03-22T05:19:40Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z) - Spectral Data Augmentation Techniques to quantify Lung Pathology from
CT-images [6.283778222138156]
本稿では,離散コサイン変換とウェーブレット変換を用いて,データ拡張のためのスペクトル手法を提案する。
嚢胞性線維症に対するCTテクスチャ解析のアプローチを実証的に評価した。
論文 参考訳(メタデータ) (2020-04-24T20:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。