論文の概要: Information retrieval in single cell chromatin analysis using TF-IDF
transformation methods
- arxiv url: http://arxiv.org/abs/2212.05184v1
- Date: Sat, 10 Dec 2022 02:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 18:33:49.370843
- Title: Information retrieval in single cell chromatin analysis using TF-IDF
transformation methods
- Title(参考訳): TF-IDF変換法による単一細胞クロマチン分析における情報検索
- Authors: Mehrdad Zandigohar and Yang Dai
- Abstract要約: トランスポサーゼアクセシブル(scATAC-seq)の単細胞シークエンシングアッセイは、数千の細胞のゲノムワイドアクセシビリティを評価する。
この分析は、データの高次元性と空間性に起因する課題を提示する。
scATAC-seqデータを解析する際のベストプラクティスは明らかではない。
- 参考スコア(独自算出の注目度): 0.7734726150561089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-cell sequencing assay for transposase-accessible chromatin
(scATAC-seq) assesses genome-wide chromatin accessibility in thousands of cells
to reveal regulatory landscapes in high resolutions. However, the analysis
presents challenges due to the high dimensionality and sparsity of the data.
Several methods have been developed, including transformation techniques of
term-frequency inverse-document frequency (TF-IDF), dimension reduction methods
such as singular value decomposition (SVD), factor analysis, and autoencoders.
Yet, a comprehensive study on the mentioned methods has not been fully
performed. It is not clear what is the best practice when analyzing scATAC-seq
data. We compared several scenarios for transformation and dimension reduction
as well as the SVD-based feature analysis to investigate potential enhancements
in scATAC-seq information retrieval. Additionally, we investigate if
autoencoders benefit from the TF-IDF transformation. Our results reveal that
the TF-IDF transformation generally leads to improved clustering and
biologically relevant feature extraction.
- Abstract(参考訳): トランスポサーゼアクセシブルクロマチン(scATAC-seq)の単細胞シークエンシングアッセイは、数千の細胞においてゲノムワイドクロマチンアクセシビリティを評価し、高解像度で制御された景観を明らかにする。
しかし,この解析では,データの高次元化とスパース性が問題となっている。
項周波数逆文書周波数(TF-IDF)の変換技術、特異値分解(SVD)や因子分析、オートエンコーダなど、いくつかの手法が開発されている。
しかし、上記の方法に関する総合的な研究は行われていない。
scATAC-seqデータを解析する際のベストプラクティスは明らかではない。
SVDに基づく特徴解析と変換・次元縮小のシナリオを比較し,SCATAC-seq情報検索の潜在的な拡張について検討した。
さらに、TF-IDF変換によるオートエンコーダの利点についても検討する。
その結果,TF-IDF変換は一般にクラスタリングの改善と生物学的に関連する特徴抽出につながることがわかった。
関連論文リスト
- Frequency-domain alignment of heterogeneous, multidimensional separations data through complex orthogonal Procrustes analysis [0.0]
多次元分離データには、複雑な生物学的サンプルに関する詳細な情報を明らかにする能力がある。
データ分析は、化学因子を表わすピークが、いくつかの分析実行の過程で漂流する可能性があるため、この分野で進行中の課題である。
この研究は、合成多次元分離データの周波数領域表現のProcrustes解析を通じて、アライメント問題に対する非常に単純な解を提供する。
論文 参考訳(メタデータ) (2025-02-18T12:14:14Z) - A Robust Support Vector Machine Approach for Raman COVID-19 Data Classification [0.7864304771129751]
本稿では,ラマン分光法から得られた新型コロナウイルスの分類における,SVM(Support Vector Machine)のための新しいロバストな定式化の性能について検討する。
我々は、各観測の周囲の有界な不確実性集合を用いて、決定論的定式化の頑健な相反するモデルを導出する。
本手法の有効性は,イタリアの病院が提供した実世界のCOVID-19データセットで検証されている。
論文 参考訳(メタデータ) (2025-01-29T14:02:45Z) - Dataset Distillation for Histopathology Image Classification [46.04496989951066]
病理画像データセット(Histo-DD)に適した新しいデータセット蒸留アルゴリズムを提案する。
提案アルゴリズムの有効性を総合的に評価し, パッチレベルとスライドレベルの両方の分類タスクにおいて, 組織学的サンプルを生成する。
論文 参考訳(メタデータ) (2024-08-19T05:53:38Z) - Multimodal Prototyping for cancer survival prediction [45.61869793509184]
ギガピクセルヒストロジー全体スライディング画像(WSI)と転写学的プロファイルを組み合わせたマルチモーダルサバイバル法は,患者の予後と成層化に特に有望である。
現在のアプローチでは、WSIを小さなパッチ(>10,000パッチ)にトークン化し、トランスクリプトミクスを遺伝子グループに分割し、結果を予測するためにTransformerを使用して統合する。
このプロセスは多くのトークンを生成し、これは注意を計算するための高いメモリ要求をもたらし、ポストホック解釈可能性分析を複雑にする。
我々のフレームワークは、新しい解釈可能性解析を解き放ちながら、はるかに少ない計算で最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-06-28T20:37:01Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - K-Nearest-Neighbors Induced Topological PCA for scRNA Sequence Data
Analysis [0.3683202928838613]
永続ラプラシアン(PL)法とL$_2,1$ノルム正規化を組み合わせたトポロジカルプライマリコンポーネント分析(tPCA)法を提案する。
さらに, k-Nearest-Neighbor (kNN) の永続ラプラス的手法を導入し, 永続ラプラス的手法の堅牢性を向上させる。
提案したtPCA法とkNN-tPCA法の有効性を,11種類のscRNA-seqデータセット上で検証した。
論文 参考訳(メタデータ) (2023-10-23T03:07:50Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Modelling Technical and Biological Effects in scRNA-seq data with
Scalable GPLVMs [6.708052194104378]
我々は,ガウス過程潜在変数モデルである確率的非線形次元減少に対する一般的なアプローチを拡張し,大規模単一セルデータセットに拡張する。
鍵となる考え方は、高速な変動推論を可能にする下位境界の分解可能性を保存する拡張カーネルを使用することである。
論文 参考訳(メタデータ) (2022-09-14T15:25:15Z) - Preservation of High Frequency Content for Deep Learning-Based Medical
Image Classification [74.84221280249876]
大量の胸部ラジオグラフィーの効率的な分析は、医師や放射線技師を助けることができる。
本稿では,視覚情報の効率的な識別と符号化のための離散ウェーブレット変換(DWT)を提案する。
論文 参考訳(メタデータ) (2022-05-08T15:29:54Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z) - Spectral Data Augmentation Techniques to quantify Lung Pathology from
CT-images [6.283778222138156]
本稿では,離散コサイン変換とウェーブレット変換を用いて,データ拡張のためのスペクトル手法を提案する。
嚢胞性線維症に対するCTテクスチャ解析のアプローチを実証的に評価した。
論文 参考訳(メタデータ) (2020-04-24T20:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。