論文の概要: Studying Limits of Explainability by Integrated Gradients for Gene
Expression Models
- arxiv url: http://arxiv.org/abs/2303.11336v1
- Date: Sun, 19 Mar 2023 19:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 17:52:47.391532
- Title: Studying Limits of Explainability by Integrated Gradients for Gene
Expression Models
- Title(参考訳): 遺伝子発現モデルのための統合勾配による説明可能性の限界の研究
- Authors: Myriam Bontonou, Ana\"is Haget, Maria Boulougouri, Jean-Michel Arbona,
Benjamin Audit, Pierre Borgnat
- Abstract要約: 重要度によるランク付け機能は,バイオマーカーの同定に十分ではないことを示す。
バイオマーカーが真理を知らないままに関係する原因を反映しているかどうかを評価することは難しいため、階層的モデルを提案することで遺伝子発現データをシミュレートする。
- 参考スコア(独自算出の注目度): 3.220287168504093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the molecular processes that drive cellular life is a
fundamental question in biological research. Ambitious programs have gathered a
number of molecular datasets on large populations. To decipher the complex
cellular interactions, recent work has turned to supervised machine learning
methods. The scientific questions are formulated as classical learning problems
on tabular data or on graphs, e.g. phenotype prediction from gene expression
data. In these works, the input features on which the individual predictions
are predominantly based are often interpreted as indicative of the cause of the
phenotype, such as cancer identification. Here, we propose to explore the
relevance of the biomarkers identified by Integrated Gradients, an
explainability method for feature attribution in machine learning. Through a
motivating example on The Cancer Genome Atlas, we show that ranking features by
importance is not enough to robustly identify biomarkers. As it is difficult to
evaluate whether biomarkers reflect relevant causes without known ground truth,
we simulate gene expression data by proposing a hierarchical model based on
Latent Dirichlet Allocation models. We also highlight good practices for
evaluating explanations for genomics data and propose a direction to derive
more insights from these explanations.
- Abstract(参考訳): 細胞生活を駆動する分子過程を理解することは、生物学的研究において基本的な問題である。
野心的なプログラムは、多数の集団で多くの分子データセットを集めている。
複雑な細胞相互作用を解読するために、最近の研究は教師付き機械学習手法に変わった。
科学的質問は表データやグラフ上の古典的学習問題(例えば遺伝子発現データからの表現型予測)として定式化されている。
これらの研究において、個々の予測が主に基づいている入力特徴は、がんの識別などの表現型の原因を示すものとしてしばしば解釈される。
本稿では,機械学習における特徴帰属の説明可能性手法であるIntegrated Gradientsによるバイオマーカーの関連性を検討する。
The Cancer Genome Atlasのモチベーションの例を通して、重要度によるランク付けはバイオマーカーの同定に十分ではないことを示す。
バイオマーカーが関連する原因を反映するかどうかを既知の事実なしに評価することは困難であり、潜在ディリクレ割当モデルに基づく階層モデルを提案することで遺伝子発現データをシミュレートする。
また、ゲノムデータの説明を評価するための良い実践を強調し、これらの説明からより多くの洞察を得るための方向性を提案する。
関連論文リスト
- Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - A Comparative Analysis of Gene Expression Profiling by Statistical and
Machine Learning Approaches [1.8954222800767324]
がん検体を分類する機械学習モデルの生物学的および方法論的限界について論じる。
遺伝子ランキングはこれらのモデルに適応した説明可能性法から得られる。
ブラックボックスニューラルネットワークによって学習された情報は、微分表現の概念と関連している。
論文 参考訳(メタデータ) (2024-02-01T18:17:36Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - Tertiary Lymphoid Structures Generation through Graph-based Diffusion [54.37503714313661]
本研究では,最先端のグラフベース拡散モデルを用いて生物学的に意味のある細胞グラフを生成する。
本研究では, グラフ拡散モデルを用いて, 3次リンパ構造(TLS)の分布を正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-10-10T14:37:17Z) - Graph Representation Learning for Interactive Biomolecule Systems [2.786956882821218]
本稿では,生物分子や系をコンピュータで認識可能な物体として表現する手法について概説する。
グラフに基づく手法に重点を置いた幾何学的なディープラーニングモデルが、生体分子データを分析して、薬物発見、タンパク質のキャラクタリゼーション、生物学的システム分析を可能にする方法について検討する。
論文 参考訳(メタデータ) (2023-04-05T08:00:50Z) - Machine Learning Methods for Cancer Classification Using Gene Expression
Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。
遺伝子発現は癌の早期発見において基本的な役割を担っている。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文 参考訳(メタデータ) (2023-01-28T15:03:03Z) - Self-Supervised Graph Representation Learning for Neuronal Morphologies [75.38832711445421]
ラベルのないデータセットから3次元神経形態の低次元表現を学習するためのデータ駆動型アプローチであるGraphDINOを提案する。
2つの異なる種と複数の脳領域において、この方法では、専門家による手動の特徴に基づく分類と同程度に形態学的細胞型クラスタリングが得られることを示す。
提案手法は,大規模データセットにおける新しい形態的特徴や細胞型の発見を可能にする可能性がある。
論文 参考訳(メタデータ) (2021-12-23T12:17:47Z) - Implications of Topological Imbalance for Representation Learning on
Biomedical Knowledge Graphs [16.566710222582618]
知識グラフ埋め込みモデルが構造的不均衡によってどのように影響を受けるかを示す。
グラフトポロジを摂動させて、ランダムで生物学的に無意味な情報によって遺伝子ランクを人工的に変化させる方法を示す。
論文 参考訳(メタデータ) (2021-12-13T11:20:36Z) - Data-Driven Logistic Regression Ensembles With Applications in Genomics [0.0]
本稿では,正規化とアンサンブルのアイデアを組み合わせた高次元二項分類問題に対する新しいアプローチを提案する。
がん,多発性硬化症,乾皮症などの共通疾患を含むいくつかの医学的データセットを用いて,バイオマーカーの予測精度と同定の点で,本手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2021-02-17T05:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。