論文の概要: Integrating Transformer and Autoencoder Techniques with Spectral Graph
Algorithms for the Prediction of Scarcely Labeled Molecular Data
- arxiv url: http://arxiv.org/abs/2211.06759v1
- Date: Sat, 12 Nov 2022 22:45:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 20:03:39.897908
- Title: Integrating Transformer and Autoencoder Techniques with Spectral Graph
Algorithms for the Prediction of Scarcely Labeled Molecular Data
- Title(参考訳): スペクトルグラフアルゴリズムを用いたトランスフォーマとオートエンコーダの統合による分子データの希薄化予測
- Authors: Nicole Hayes, Ekaterina Merkurjev, Guo-Wei Wei
- Abstract要約: この課題に対処するために、Merriman-Bence-Osher(MBO)テクニックを取り入れたグラフベースの3つのモデルを導入する。
具体的には、MBO方式のグラフベースの修正は、自家製のトランスフォーマーやオートエンコーダなどの最先端技術と統合されている。
提案したモデルは,5つのベンチマークデータセットを用いて検証する。
- 参考スコア(独自算出の注目度): 2.8360662552057323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In molecular and biological sciences, experiments are expensive,
time-consuming, and often subject to ethical constraints. Consequently, one
often faces the challenging task of predicting desirable properties from small
data sets or scarcely-labeled data sets. Although transfer learning can be
advantageous, it requires the existence of a related large data set. This work
introduces three graph-based models incorporating Merriman-Bence-Osher (MBO)
techniques to tackle this challenge. Specifically, graph-based modifications of
the MBO scheme is integrated with state-of-the-art techniques, including a
home-made transformer and an autoencoder, in order to deal with
scarcely-labeled data sets. In addition, a consensus technique is detailed. The
proposed models are validated using five benchmark data sets. We also provide a
thorough comparison to other competing methods, such as support vector
machines, random forests, and gradient boosted decision trees, which are known
for their good performance on small data sets. The performances of various
methods are analyzed using residue-similarity (R-S) scores and R-S indices.
Extensive computational experiments and theoretical analysis show that the new
models perform very well even when as little as 1% of the data set is used as
labeled data.
- Abstract(参考訳): 分子科学や生物学的科学では、実験は高価で時間がかかり、しばしば倫理的な制約を受ける。
そのため、小さなデータセットや少ないラベルのデータセットから望ましいプロパティを予測するという困難なタスクに直面することが多い。
転送学習は有利であるが、関連する大規模データセットの存在が必要である。
本稿では,merriman-bence-osher (mbo) 技術を用いた3つのグラフモデルを提案する。
特に、グラフベースのmboスキームの修正は、少ないラベルのデータセットを扱うために、自家製のトランスフォーマーやオートエンコーダなど、最先端の技術と統合されている。
さらに、コンセンサス技術についても詳述する。
提案モデルは5つのベンチマークデータセットを用いて検証される。
また,小規模データセットにおける性能の良さで知られているサポートベクターマシン,ランダムフォレスト,勾配強化決定木など,競合する他の手法と徹底的に比較する。
残余相似度(R-S)スコアとR-S指標を用いて各種手法の性能解析を行った。
大規模計算実験と理論解析により、データセットの1%をラベル付きデータとして使用しても、新しいモデルは非常によく機能することが示された。
関連論文リスト
- Approaching Metaheuristic Deep Learning Combos for Automated Data Mining [0.5419570023862531]
本研究では,メタヒューリスティック手法を従来の分類器やニューラルネットワークと組み合わせて自動データマイニングを行う手法を提案する。
手書き文字認識のためのMNISTデータセットの実験を行った。
根拠真理ラベル付きデータセットの検証精度は、これまで見つからなかった他のデータインスタンスのラベルを修正するのに不十分である、という実証的な観察がなされた。
論文 参考訳(メタデータ) (2024-10-16T10:28:22Z) - MDM: Advancing Multi-Domain Distribution Matching for Automatic Modulation Recognition Dataset Synthesis [35.07663680944459]
ディープラーニング技術は、AMR(Automatic Modulation Recognition)タスクにうまく導入されている。
ディープラーニングの成功はすべて、大規模なデータセットのトレーニングによるものだ。
大量のデータの問題を解決するため、一部の研究者はデータ蒸留法を提唱した。
論文 参考訳(メタデータ) (2024-08-05T14:16:54Z) - Transfer Learning for Molecular Property Predictions from Small Data Sets [0.0]
2つの小さなデータセット上での分子特性の予測のために、一般的な機械学習モデルをベンチマークする。
本稿では,大規模なデータセットを用いて各モデルを事前学習し,元のデータセットを微調整した上で,より正確なモデルを得ることができる転送学習戦略を提案する。
論文 参考訳(メタデータ) (2024-04-20T14:25:34Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - EGG-GAE: scalable graph neural networks for tabular data imputation [8.775728170359024]
本稿では,データ計算に欠ける新しいEdGe生成グラフオートエンコーダ(EGG-GAE)を提案する。
EGG-GAEは、入力データのランダムにサンプリングされたミニバッチで動作し、各アーキテクチャ層におけるミニバッチ間の接続性を自動的に推測する。
論文 参考訳(メタデータ) (2022-10-19T10:26:17Z) - Too Fine or Too Coarse? The Goldilocks Composition of Data Complexity
for Robust Left-Right Eye-Tracking Classifiers [0.0]
我々は、細粒度データと粗粒度データの両方からなる混合データセットを用いて機械学習モデルを訓練する。
我々の目的のために、細粒度データはより複雑な方法で収集されたデータを指すのに対し、粗粒度データはより単純な方法で収集されたデータを指す。
論文 参考訳(メタデータ) (2022-08-24T23:18:08Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。