論文の概要: Redundancy-aware unsupervised rankings for collections of gene sets
- arxiv url: http://arxiv.org/abs/2307.16182v1
- Date: Sun, 30 Jul 2023 09:39:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 17:17:55.257362
- Title: Redundancy-aware unsupervised rankings for collections of gene sets
- Title(参考訳): 遺伝子集合のコレクションの冗長性を考慮した教師なしランキング
- Authors: Chiara Balestra, Carlo Maj, Emmanuel M\"uller, Andreas Mayr
- Abstract要約: 本稿では,重要度スコアを用いて,集合的包括的視点からコンテキストを研究するコレクションの経路をランク付けすることを提案する。
提案手法は,遺伝子集合の集合の解釈可能性を高めるためにバイオインフォマティクスにおける実用的有用性を示す。
- 参考スコア(独自算出の注目度): 0.28675177318965034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The biological roles of gene sets are used to group them into collections.
These collections are often characterized by being high-dimensional,
overlapping, and redundant families of sets, thus precluding a straightforward
interpretation and study of their content. Bioinformatics looked for solutions
to reduce their dimension or increase their intepretability. One possibility
lies in aggregating overlapping gene sets to create larger pathways, but the
modified biological pathways are hardly biologically justifiable. We propose to
use importance scores to rank the pathways in the collections studying the
context from a set covering perspective. The proposed Shapley values-based
scores consider the distribution of the singletons and the size of the sets in
the families; Furthermore, a trick allows us to circumvent the usual
exponential complexity of Shapley values' computation. Finally, we address the
challenge of including a redundancy awareness in the obtained rankings where,
in our case, sets are redundant if they show prominent intersections.
The rankings can be used to reduce the dimension of collections of gene sets,
such that they show lower redundancy and still a high coverage of the genes. We
further investigate the impact of our selection on Gene Sets Enrichment
Analysis. The proposed method shows a practical utility in bioinformatics to
increase the interpretability of the collections of gene sets and a step
forward to include redundancy into Shapley values computations.
- Abstract(参考訳): 遺伝子セットの生物学的役割は、それらをコレクションにまとめるために使われる。
これらのコレクションは、しばしば高次元、重なり合い、冗長な集合の族であり、従ってそれらの内容の直接的な解釈と研究を前提としている。
バイオインフォマティクスは、それらの次元を減らしたり、解釈可能性を高めるための解決策を探した。
一つの可能性は重複する遺伝子集合を集約してより大きな経路を作り出すことであるが、改変された生物学的経路は生物学的に正当化できない。
本稿では,重要度スコアを用いて,集合的包括的視点からコンテキストを研究するコレクションの経路をランク付けすることを提案する。
提案したShapley値に基づくスコアは、一重項の分布と族内の集合の大きさを考慮し、さらに、Shapley値の計算の通常の指数的複雑さを回避するためのトリックである。
最後に、得られたランキングに冗長性意識を含めるという課題に対処し、この場合、顕著な交点を示す場合、集合は冗長である。
ランク付けは、遺伝子集合の集まりの次元を減らすために使用され、冗長性が低く、なおかつ高い範囲の遺伝子を示す。
さらに,遺伝子セット富化分析における選択の影響について検討する。
提案手法は, バイオインフォマティクスにおいて, 遺伝子集合の集合の解釈可能性を高めるための実用的有用性を示し, シェープリー値の計算に冗長性を含める。
関連論文リスト
- Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Enhancing Neural Subset Selection: Integrating Background Information into Set Representations [53.15923939406772]
対象値が入力集合とサブセットの両方に条件付けされている場合、スーパーセットのテクスティ不変な統計量を関心のサブセットに組み込むことが不可欠であることを示す。
これにより、出力値がサブセットとその対応するスーパーセットの置換に不変であることを保証する。
論文 参考訳(メタデータ) (2024-02-05T16:09:35Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - StyleGenes: Discrete and Efficient Latent Distributions for GANs [149.0290830305808]
GAN(Generative Adversarial Networks)のための離散潜在分布を提案する。
連続的な先行点から潜在ベクトルを描く代わりに、学習可能な潜在点の有限集合からサンプリングする。
私たちは生物の情報のエンコーディングからインスピレーションを得ます。
論文 参考訳(メタデータ) (2023-04-30T23:28:46Z) - Redundancy-aware unsupervised ranking based on game theory --
application to gene enrichment analysis [0.28675177318965034]
シングルトンの分布とそのサイズに基づいて,集合の族内の集合をランク付けする手法を提案する。
本研究は, 遺伝子集合コレクションに対するアプローチの評価であり, 得られたランクは, 冗長性が低く, 高いカバレッジを示す。
論文 参考訳(メタデータ) (2022-07-22T08:57:08Z) - Unsupervised Features Ranking via Coalitional Game Theory for
Categorical Data [0.28675177318965034]
教師なしの機能選択は、機能の数を減らすことを目的としている。
導出特徴の選択は、冗長率を下げる競合する手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-17T14:17:36Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - A Novel Granular-Based Bi-Clustering Method of Deep Mining the
Co-Expressed Genes [76.84066556597342]
ビクラスタリング法は、サンプル(遺伝子)のサブセットが試験条件下で協調的に制御されるバイクラスタをマイニングするために用いられる。
残念ながら、従来の二クラスタ法はそのような二クラスタを発見するのに完全には効果がない。
本稿では,グラニュラーコンピューティングの理論を取り入れた新しい2クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-12T02:04:40Z) - Learn to Predict Sets Using Feed-Forward Neural Networks [63.91494644881925]
本稿では、ディープフィードフォワードニューラルネットワークを用いた設定予測の課題に対処する。
未知の置換と基数を持つ集合を予測するための新しい手法を提案する。
関連視覚問題に対する集合定式化の有効性を実証する。
論文 参考訳(メタデータ) (2020-01-30T01:52:07Z) - Guiding Corpus-based Set Expansion by Auxiliary Sets Generation and
Co-Expansion [45.716171458483636]
コーパスベースのセット展開アルゴリズムは、語彙パターンと分布類似性を組み込むことで、与えられた種子をブートストラップする。
Set-CoExpanは、ユーザの興味のターゲットセットと密接に関連する負のセットとして、補助セットを自動的に生成する。
本研究では,Set-CoExpanが強いベースライン法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2020-01-27T22:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。