論文の概要: Fast and Functional Structured Data Generators Rooted in
Out-of-Equilibrium Physics
- arxiv url: http://arxiv.org/abs/2307.06797v1
- Date: Thu, 13 Jul 2023 15:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 14:19:11.400173
- Title: Fast and Functional Structured Data Generators Rooted in
Out-of-Equilibrium Physics
- Title(参考訳): 平衡外物理に根ざした高速かつ機能的なデータ生成器
- Authors: Alessandra Carbone, Aur\'elien Decelle, Lorenzo Rosset, Beatriz Seoane
- Abstract要約: エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this study, we address the challenge of using energy-based models to
produce high-quality, label-specific data in complex structured datasets, such
as population genetics, RNA or protein sequences data. Traditional training
methods encounter difficulties due to inefficient Markov chain Monte Carlo
mixing, which affects the diversity of synthetic data and increases generation
times. To address these issues, we use a novel training algorithm that exploits
non-equilibrium effects. This approach, applied on the Restricted Boltzmann
Machine, improves the model's ability to correctly classify samples and
generate high-quality synthetic data in only a few sampling steps. The
effectiveness of this method is demonstrated by its successful application to
four different types of data: handwritten digits, mutations of human genomes
classified by continental origin, functionally characterized sequences of an
enzyme protein family, and homologous RNA sequences from specific taxonomies.
- Abstract(参考訳): 本研究では,個体群遺伝学,rna,タンパク質配列データなどの複雑な構造化データセットにおいて,エネルギーベースモデルを用いて高品質なラベル特異的なデータを生成することの課題に対処する。
非効率なマルコフ連鎖モンテカルロ混合により、従来の訓練手法では、合成データの多様性に影響を与え、生成時間を増加させる。
これらの問題に対処するために、非平衡効果を利用する新しいトレーニングアルゴリズムを用いる。
このアプローチは制限ボルツマンマシンに適用され、サンプルを正しく分類し、数ステップで高品質な合成データを生成するモデルの能力を向上させる。
本手法の有効性は、手書き桁、大陸由来のヒトゲノムの変異、酵素タンパク質ファミリーの機能的特徴配列、特定の分類群からの相同RNA配列の4種類のデータに適用することで実証される。
関連論文リスト
- DNA Sequence Classification with Compressors [0.0]
本研究は,DNA配列解析に適した圧縮機を用いたパラメータフリー分類法を新たに導入する。
この手法は、精度の観点から現在の最先端と整合するだけでなく、従来の機械学習手法よりもリソース効率の良い代替手段を提供する。
論文 参考訳(メタデータ) (2024-01-25T09:17:19Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Genetic heterogeneity analysis using genetic algorithm and network
science [2.6166087473624318]
ゲノムワイド・アソシエーション(GWAS)は、疾患に感受性のある遺伝的変数を同定することができる。
遺伝的効果に絡み合った遺伝的変数は、しばしば低い効果サイズを示す。
本稿では,FCSNet(Feature Co-Selection Network)という,GWASのための新しい特徴選択機構を提案する。
論文 参考訳(メタデータ) (2023-08-12T01:28:26Z) - Exploring The Potential Of GANs In Biological Sequence Analysis [0.966840768820136]
本稿では,GAN(Generative Adversarial Networks)に基づくデータ不均衡問題に対する新しいアプローチを提案する。
GANは、実際のデータとよく似た合成データを生成するために利用される。
3つの異なるシーケンスデータセットを用いて3つの異なる分類タスクを実行する。
論文 参考訳(メタデータ) (2023-03-04T13:46:45Z) - Optirank: classification for RNA-Seq data with optimal ranking reference
genes [0.0]
そこで我々は,ロジスティック回帰モデルであるOptiicrankを提案し,モデルと遺伝子のパラメータを同時に学習し,ランキングの基準セットとして使用する。
また、列車データと試験データの間に異なる種類の分散シフトを示す実際の分類タスクについても検討する。
論文 参考訳(メタデータ) (2023-01-11T10:49:06Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Using Signal Processing in Tandem With Adapted Mixture Models for
Classifying Genomic Signals [16.119729980200955]
本稿では,ガウス混合モデルとタンデムの信号処理を併用して,シーケンスのスペクトル表現を改善する手法を提案する。
提案手法は、確立されたベンチマークデータセットに対して、6.06%の精度で類似した最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-11-03T06:10:55Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。