論文の概要: Learning Invariant Molecular Representation in Latent Discrete Space
- arxiv url: http://arxiv.org/abs/2310.14170v1
- Date: Sun, 22 Oct 2023 04:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 01:22:23.533941
- Title: Learning Invariant Molecular Representation in Latent Discrete Space
- Title(参考訳): 潜在離散空間における不変分子表現の学習
- Authors: Xiang Zhuang, Qiang Zhang, Keyan Ding, Yatao Bian, Xiao Wang, Jingsong
Lv, Hongyang Chen, Huajun Chen
- Abstract要約: 本稿では,分散シフトに対する不変性とロバスト性を示す分子表現を学習するための新しい枠組みを提案する。
我々のモデルは、様々な分布シフトが存在する場合に、最先端のベースラインに対してより強力な一般化を実現する。
- 参考スコア(独自算出の注目度): 52.13724532622099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Molecular representation learning lays the foundation for drug discovery.
However, existing methods suffer from poor out-of-distribution (OOD)
generalization, particularly when data for training and testing originate from
different environments. To address this issue, we propose a new framework for
learning molecular representations that exhibit invariance and robustness
against distribution shifts. Specifically, we propose a strategy called
``first-encoding-then-separation'' to identify invariant molecule features in
the latent space, which deviates from conventional practices. Prior to the
separation step, we introduce a residual vector quantization module that
mitigates the over-fitting to training data distributions while preserving the
expressivity of encoders. Furthermore, we design a task-agnostic
self-supervised learning objective to encourage precise invariance
identification, which enables our method widely applicable to a variety of
tasks, such as regression and multi-label classification. Extensive experiments
on 18 real-world molecular datasets demonstrate that our model achieves
stronger generalization against state-of-the-art baselines in the presence of
various distribution shifts. Our code is available at
https://github.com/HICAI-ZJU/iMoLD.
- Abstract(参考訳): 分子表現学習は、薬物発見の基礎となる。
しかし、既存の手法では、特にトレーニングやテストのためのデータが異なる環境に由来する場合、OODの一般化に悩まされている。
この問題に対処するために,分布シフトに対する不変性と堅牢性を示す分子表現を学習するための新しい枠組みを提案する。
具体的には,従来の慣行から逸脱した潜伏空間における不変分子の特徴を識別する「第一エンコード・then-separation」という戦略を提案する。
分離ステップに先立ち,エンコーダの表現性を維持しつつ,トレーニングデータ分布へのオーバーフィッティングを緩和する残差ベクトル量子化モジュールを導入する。
さらに,タスク非依存な自己教師付き学習目標を設計,高精度な不分散同定を奨励し,回帰やマルチラベル分類など,様々なタスクに適用可能な手法を提案する。
18種類の実世界の分子データセットに関する広範囲な実験により,本モデルが分散シフトの存在下で,最先端のベースラインに対してより強固な一般化を実現することを証明した。
私たちのコードはhttps://github.com/hicai-zju/imoldで利用可能です。
関連論文リスト
- Invariant Anomaly Detection under Distribution Shifts: A Causal
Perspective [6.845698872290768]
異常検出(AD、Anomaly Detection)は、異常なサンプルを識別する機械学習タスクである。
分散シフトの制約の下では、トレーニングサンプルとテストサンプルが同じ分布から引き出されるという仮定が崩壊する。
我々は,異常検出モデルのレジリエンスを,異なる種類の分布シフトに高めようとしている。
論文 参考訳(メタデータ) (2023-12-21T23:20:47Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Explainable Semantic Medical Image Segmentation with Style [7.074258860680265]
ラベル付きデータのみを限定して一般化可能なセグメンテーションを実現するための,完全教師付き生成フレームワークを提案する。
提案手法は,エンド・ツー・エンドの対角訓練を取り入れたセグメンテーション・タスク駆動型識別器と組み合わせた医用画像スタイルを作成する。
完全セマンティックで公開可能なペルビウスデータセットの実験では、我々の手法は他の最先端の手法よりも、シフトに対してより一般化可能であることが示された。
論文 参考訳(メタデータ) (2023-03-10T04:34:51Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Attribute Graphs Underlying Molecular Generative Models: Path to Learning with Limited Data [42.517927809224275]
本研究では,事前学習された生成オートエンコーダの潜伏符号の摂動実験を頼りに属性グラフを探索するアルゴリズムを提案する。
潜在符号間の構造方程式モデルをモデル化する有効なグラフィカルモデルに適合することを示す。
小分子の大きなデータセットで訓練された事前学習された生成オートエンコーダを用いて、グラフィカルモデルを用いて特定の特性を予測できることを実証する。
論文 参考訳(メタデータ) (2022-07-14T19:20:30Z) - Heterogeneous Target Speech Separation [52.05046029743995]
我々は,非相互排他的概念を用いて興味のあるソースを区別できる単一チャネルターゲットソース分離のための新しいパラダイムを提案する。
提案する異種分離フレームワークは,分散シフトが大きいデータセットをシームレスに利用することができる。
論文 参考訳(メタデータ) (2022-04-07T17:14:20Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。