論文の概要: Multi-context principal component analysis
- arxiv url: http://arxiv.org/abs/2601.15239v1
- Date: Wed, 21 Jan 2026 18:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.489994
- Title: Multi-context principal component analysis
- Title(参考訳): マルチコンテキスト主成分分析
- Authors: Kexin Wang, Salil Bhate, João M. Pereira, Joe Kileel, Matylda Figlerowicz, Anna Seigal,
- Abstract要約: コンテキストのサブセット間で共有される因子にデータを分解するフレームワークを開発する。
遺伝子発現に適用すると、がんのサブセット間で共有される変異の軸が明らかになる。
言語モデルからの文脈化された単語埋め込みに適用され、人間の自然に関する議論のステージをマッピングします。
- 参考スコア(独自算出の注目度): 12.242816735590033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Principal component analysis (PCA) is a tool to capture factors that explain variation in data. Across domains, data are now collected across multiple contexts (for example, individuals with different diseases, cells of different types, or words across texts). While the factors explaining variation in data are undoubtedly shared across subsets of contexts, no tools currently exist to systematically recover such factors. We develop multi-context principal component analysis (MCPCA), a theoretical and algorithmic framework that decomposes data into factors shared across subsets of contexts. Applied to gene expression, MCPCA reveals axes of variation shared across subsets of cancer types and an axis whose variability in tumor cells, but not mean, is associated with lung cancer progression. Applied to contextualized word embeddings from language models, MCPCA maps stages of a debate on human nature, revealing a discussion between science and fiction over decades. These axes are not found by combining data across contexts or by restricting to individual contexts. MCPCA is a principled generalization of PCA to address the challenge of understanding factors underlying data across contexts.
- Abstract(参考訳): 主成分分析(PCA)は、データの変動を説明する要因を捉えるツールである。
ドメイン全体で、データは複数のコンテキストにまたがって収集される(例えば、異なる疾患を持つ個人、異なるタイプの細胞、テキストにまたがる単語など)。
データの変化を説明する要因は、明らかにコンテキストのサブセット間で共有されているが、そのような要因を体系的に回復するツールは今のところ存在しない。
我々は, 文脈のサブセット間で共有される因子にデータを分解する理論的およびアルゴリズム的なフレームワークである, マルチコンテキスト主成分分析(MCPCA)を開発した。
遺伝子発現に応用すると、MCPCAは、がんのサブセットと腫瘍細胞における変異が肺がんの進行と関連している軸の間で共有される変異の軸を明らかにする。
言語モデルからの文脈化された単語の埋め込みに適用すると、CPCAは人間の本性に関する議論の段階を地図化し、数十年にわたる科学とフィクションの議論を明らかにした。
これらの軸は、コンテキストにまたがるデータの組み合わせや、個々のコンテキストに制限を加えることによっては見つからない。
MCPCAはPCAの原則的な一般化であり、コンテキスト全体にわたるデータの基礎となる要素を理解するという課題に対処するものである。
関連論文リスト
- Hierarchical Variable Importance with Statistical Control for Medical Data-Based Prediction [35.94354098982828]
モデルに依存しない変数重要度尺度である階層CPIを導入する。
階層木に沿った部分群を探索することで、計算的に抽出可能でありながら、家族的な誤り率の明確な制御も楽しめる。
その効果は2つのニューロイメージングデータセットで示される。
論文 参考訳(メタデータ) (2025-08-12T08:10:54Z) - A Novel Multidimensional Reference Model For Heterogeneous Textual
Datasets Using Context, Semantic And Syntactic Clues [4.453735522794044]
本研究の目的は、異種データセットのカテゴリを用いた新しい多次元参照モデルを作ることである。
MRMの主な貢献は、シノニム、アントロニム、フォーマル、語彙語順、共起といった言語カテゴリーの索引付けに基づいて各用語でそれぞれのトークンをチェックすることである。
論文 参考訳(メタデータ) (2023-11-10T17:02:25Z) - A Causal Framework for Decomposing Spurious Variations [68.12191782657437]
我々はマルコフモデルとセミマルコフモデルの急激な変分を分解するツールを開発する。
突発効果の非パラメトリック分解を可能にする最初の結果を証明する。
説明可能なAIや公平なAIから、疫学や医学における疑問まで、いくつかの応用がある。
論文 参考訳(メタデータ) (2023-06-08T09:40:28Z) - A Category-theoretical Meta-analysis of Definitions of Disentanglement [97.34033555407403]
データの変化の要因を識別することは、機械学習の基本的な概念である。
本稿では,既存の乱れの定義をメタ分析する。
論文 参考訳(メタデータ) (2023-05-11T15:24:20Z) - Machine Learning Methods for Cancer Classification Using Gene Expression
Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。
遺伝子発現は癌の早期発見において基本的な役割を担っている。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文 参考訳(メタデータ) (2023-01-28T15:03:03Z) - Contrast Pattern Mining: A Survey [54.06874773607785]
この分野の研究者が短期間で現場の一般的な状況を理解することは困難である。
まず、識別能力を評価するための基本的な概念、タイプ、採掘戦略、メトリクスを含む、CPMの深い理解を示す。
我々は,CPM法の特徴を,境界ベースアルゴリズム,木ベースアルゴリズム,進化ファジィシステムベースアルゴリズム,決定木ベースアルゴリズム,その他のアルゴリズムに分類する。
論文 参考訳(メタデータ) (2022-09-27T17:11:12Z) - Instrumental Variable Estimation for Compositional Treatments [4.656302602746229]
構成データは、生態学における種数、単細胞シークエンシングデータ由来の細胞型組成物、および微生物研究におけるアンプリコン量データを含む。
ここでは、構成が原因となる機器変数設定において、構成データに対する因果的視点を提供する。
論文 参考訳(メタデータ) (2021-06-21T16:29:41Z) - Transformer-based Multi-Aspect Modeling for Multi-Aspect Multi-Sentiment
Analysis [56.893393134328996]
本稿では,複数の側面間の潜在的な関係を抽出し,文中のすべての側面の感情を同時に検出できるトランスフォーマーベースのマルチアスペクトモデリング手法を提案する。
本手法はBERTやRoBERTaといった強力なベースラインと比較して顕著な改善を実現している。
論文 参考訳(メタデータ) (2020-11-01T11:06:31Z) - CLARITY -- Comparing heterogeneous data using dissimiLARITY [0.39146761527401414]
多くの科学的疑問は、エンティティ間の(離散的な)相似性が、そのような異なるデータ間で保存されているかどうかについて述べられる。
提案手法であるCLARITYは,データセット間の一貫性を定量化し,不整合の発生箇所を特定し,その解釈を支援する。
論文 参考訳(メタデータ) (2020-05-29T20:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。