論文の概要: Exploring The Potential Of GANs In Biological Sequence Analysis
- arxiv url: http://arxiv.org/abs/2303.02421v1
- Date: Sat, 4 Mar 2023 13:46:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 19:47:44.332463
- Title: Exploring The Potential Of GANs In Biological Sequence Analysis
- Title(参考訳): 生物配列解析におけるGANの可能性を探る
- Authors: Taslim Murad, Sarwan Ali, Murray Patterson
- Abstract要約: 本稿では,GAN(Generative Adversarial Networks)に基づくデータ不均衡問題に対する新しいアプローチを提案する。
GANは、実際のデータとよく似た合成データを生成するために利用される。
3つの異なるシーケンスデータセットを用いて3つの異なる分類タスクを実行する。
- 参考スコア(独自算出の注目度): 0.966840768820136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biological sequence analysis is an essential step toward building a deeper
understanding of the underlying functions, structures, and behaviors of the
sequences. It can help in identifying the characteristics of the associated
organisms, like viruses, etc., and building prevention mechanisms to eradicate
their spread and impact, as viruses are known to cause epidemics that can
become pandemics globally. New tools for biological sequence analysis are
provided by machine learning (ML) technologies to effectively analyze the
functions and structures of the sequences. However, these ML-based methods
undergo challenges with data imbalance, generally associated with biological
sequence datasets, which hinders their performance. Although various strategies
are present to address this issue, like the SMOTE algorithm, which creates
synthetic data, however, they focus on local information rather than the
overall class distribution. In this work, we explore a novel approach to handle
the data imbalance issue based on Generative Adversarial Networks (GANs) which
use the overall data distribution. GANs are utilized to generate synthetic data
that closely resembles the real one, thus this generated data can be employed
to enhance the ML models' performance by eradicating the class imbalance
problem for biological sequence analysis. We perform 3 distinct classification
tasks by using 3 different sequence datasets (Influenza A Virus, PALMdb, VDjDB)
and our results illustrate that GANs can improve the overall classification
performance.
- Abstract(参考訳): 生物学的シーケンス解析は、塩基配列の基盤となる機能、構造、挙動をより深く理解するための重要なステップである。
ウイルスなどの関連生物の特徴を識別し、ウイルスが世界的なパンデミックを引き起こすことが知られているため、その拡散と影響を根絶するための予防メカニズムを構築するのに役立つ。
生物学的配列解析のための新しいツールは機械学習(ML)技術によって提供され、シーケンスの機能と構造を効果的に分析する。
しかし、これらのMLベースの手法は、一般に生物学的なシーケンスデータセットと関連するデータ不均衡の課題を解決し、その性能を阻害する。
合成データを生成するSMOTEアルゴリズムのように、この問題に対処するためには様々な戦略が存在するが、クラス全体の分布ではなく、ローカル情報に焦点を当てている。
本研究では,全体データ分布を用いたgans(generative adversarial network)に基づくデータ不均衡問題を扱うための新しい手法を提案する。
GANは実データとよく似た合成データを生成するために利用されており、この生成データは、生物配列解析のクラス不均衡問題を根絶してMLモデルの性能を向上させるために利用することができる。
Influenza A Virus, PALMdb, VDjDB)を用いて3つの異なる分類処理を行い, GANが全体的な分類性能を向上させることを示す。
関連論文リスト
- Learning to refine domain knowledge for biological network inference [2.209921757303168]
摂動実験により、生物学者は興味のある変数間の因果関係を発見することができる。
これらのデータの空間性と高次元性は因果構造学習アルゴリズムに重大な課題をもたらす。
そこで本研究では,データ観測に基づくドメイン知識の補修アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-18T12:53:23Z) - Targeted Cause Discovery with Data-Driven Learning [66.86881771339145]
本稿では,観測結果から対象変数の因果変数を推定する機械学習手法を提案する。
我々は、シミュレートされたデータの教師あり学習を通じて因果関係を特定するために訓練されたニューラルネットワークを用いる。
大規模遺伝子制御ネットワークにおける因果関係の同定における本手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-08-29T02:21:11Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics [44.97217246897902]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - iSCAN: Identifying Causal Mechanism Shifts among Nonlinear Additive
Noise Models [48.33685559041322]
本稿では,同一変数集合上の2つ以上の関連するデータセットにおける因果メカニズムシフトの同定に焦点をあてる。
提案手法を実装したコードはオープンソースであり、https://github.com/kevinsbello/iSCAN.comで公開されている。
論文 参考訳(メタデータ) (2023-06-30T01:48:11Z) - Criticality Analysis: Bio-inspired Nonlinear Data Representation [0.0]
臨界分析(英語:Criticality Analysis、CA)は、制御された自己組織的臨界システム内の情報表現のバイオインスパイアされた方法である。
入力は、全体データの特徴を保持する射影出力に次元的に還元できるが、より単純な動的応答を持つ。
CA法は、生体システムへの任意の入力の生物学的に関連性のあるエンコーディング機構を可能にし、生物の様々な複雑さにおける情報処理に適したモデルを作成する。
論文 参考訳(メタデータ) (2023-05-11T19:02:09Z) - Unsupervised hierarchical clustering using the learning dynamics of RBMs [0.0]
Restricted Boltzmann Machine (RBM) の学習力学を利用した関係データツリー構築のための新しい汎用的手法を提案する。
提案手法は,Plefka拡張から派生した平均場アプローチに基づいて,無秩序なシステムの文脈で開発された。
人工的に階層的なデータセットと3つの異なる実世界のデータセット(桁のイメージ、ヒトゲノムの突然変異、タンパク質のファミリー)でテストした。
論文 参考訳(メタデータ) (2023-02-03T16:53:32Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。
本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。
シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-06T13:10:37Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。