論文の概要: Learning to Group Auxiliary Datasets for Molecule
- arxiv url: http://arxiv.org/abs/2307.04052v1
- Date: Sat, 8 Jul 2023 22:02:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 15:48:58.023621
- Title: Learning to Group Auxiliary Datasets for Molecule
- Title(参考訳): 分子群補助データセットへの学習
- Authors: Tinglin Huang, Ziniu Hu, Rex Ying
- Abstract要約: 高親和性補助データセットの同定にMollGroupを提案する。
MolGroupはデータセット親和性をタスクと構造親和性に分離する。
実験の結果,MollGroupが選択した分子データセット群を用いてトレーニングしたGIN/Graphormerでは,平均4.41%/3.47%の改善が見られた。
- 参考スコア(独自算出の注目度): 20.792294400448778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The limited availability of annotations in small molecule datasets presents a
challenge to machine learning models. To address this, one common strategy is
to collaborate with additional auxiliary datasets. However, having more data
does not always guarantee improvements. Negative transfer can occur when the
knowledge in the target dataset differs or contradicts that of the auxiliary
molecule datasets. In light of this, identifying the auxiliary molecule
datasets that can benefit the target dataset when jointly trained remains a
critical and unresolved problem. Through an empirical analysis, we observe that
combining graph structure similarity and task similarity can serve as a more
reliable indicator for identifying high-affinity auxiliary datasets. Motivated
by this insight, we propose MolGroup, which separates the dataset affinity into
task and structure affinity to predict the potential benefits of each auxiliary
molecule dataset. MolGroup achieves this by utilizing a routing mechanism
optimized through a bi-level optimization framework. Empowered by the meta
gradient, the routing mechanism is optimized toward maximizing the target
dataset's performance and quantifies the affinity as the gating score. As a
result, MolGroup is capable of predicting the optimal combination of auxiliary
datasets for each target dataset. Our extensive experiments demonstrate the
efficiency and effectiveness of MolGroup, showing an average improvement of
4.41%/3.47% for GIN/Graphormer trained with the group of molecule datasets
selected by MolGroup on 11 target molecule datasets.
- Abstract(参考訳): 小さな分子データセットにおけるアノテーションの可用性の制限は、機械学習モデルに課題をもたらす。
これを解決するための一般的な戦略は、追加の補助データセットとのコラボレーションである。
しかし、より多くのデータを持つことは必ずしも改善を保証しない。
ターゲットデータセットの知識が異なる場合や補助分子データセットの知識と矛盾する場合に負の転送が発生する。
これを踏まえて、共同トレーニング時にターゲットデータセットに利益をもたらす補助分子データセットを特定することは、依然として重要かつ未解決の問題である。
経験的分析により,グラフ構造類似性とタスク類似性の組み合わせが,高親和性補助データセットの同定において,より信頼性の高い指標となることを確かめた。
この知見により,各補助分子データセットの潜在的な利益を予測するために,データセット親和性をタスクと構造親和性に分離するMollGroupを提案する。
MolGroupは、双方向最適化フレームワークによって最適化されたルーティングメカニズムを利用することで、これを実現する。
メタ勾配を利用して、ルーティング機構はターゲットデータセットのパフォーマンスを最大化するために最適化され、アフィニティをゲーティングスコアとして定量化する。
その結果、MollGroupは各ターゲットデータセットに対する補助データセットの最適な組み合わせを予測することができる。
実験により,11種類の標的分子データセットにおいて,分子群から選択したgin/graphormer群に対して平均4.41%/3.47%の改善が得られた。
関連論文リスト
- Prioritize Alignment in Dataset Distillation [27.71563788300818]
既存の方法はエージェントモデルを使用して、ターゲットデータセットから情報を抽出し、蒸留データセットに埋め込む。
既存の手法では,情報抽出と埋め込みの両方の段階において,不整合情報を導入している。
本稿では、以下の2つの視点から情報を整列するデータセット蒸留(PAD)における優先順位付けアライメントを提案する。
論文 参考訳(メタデータ) (2024-08-06T17:07:28Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Combining datasets to increase the number of samples and improve model
fitting [7.4771091238795595]
我々はImp(ComImp)に基づくコンバインドデータセットと呼ばれる新しいフレームワークを提案する。
さらに,PCA,PCA-ComImpを用いたComImpの変種を提案する。
提案手法は,より小さなデータセット上での予測モデルの精度を大幅に向上させることで,転送学習と幾らか類似していることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T06:06:37Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Federated Learning of Molecular Properties in a Heterogeneous Setting [79.00211946597845]
これらの課題に対処するために、フェデレーションヘテロジニアス分子学習を導入する。
フェデレートラーニングにより、エンドユーザは、独立したクライアント上に分散されたトレーニングデータを保存しながら、グローバルモデルを協調的に構築できる。
FedChemは、化学におけるAI改善のための新しいタイプのコラボレーションを可能にする必要がある。
論文 参考訳(メタデータ) (2021-09-15T12:49:13Z) - Cross-Dataset Collaborative Learning for Semantic Segmentation [17.55660581677053]
我々は、Cross-Dataset Collaborative Learning (CDCL) と呼ばれる、単純で柔軟で汎用的なセマンティックセグメンテーション手法を提案する。
複数のラベル付きデータセットを付与することで、各データセット上の特徴表現の一般化と識別を改善することを目指しています。
単一データセットとクロスデータセットの設定で,Cityscapes,BDD100K,CamVid,COCO Stuffという4つの多様なデータセットに対して,広範な評価を行う。
論文 参考訳(メタデータ) (2021-03-21T09:59:47Z) - Dual-Teacher: Integrating Intra-domain and Inter-domain Teachers for
Annotation-efficient Cardiac Segmentation [65.81546955181781]
本稿では,新しい半教師付きドメイン適応手法,すなわちDual-Teacherを提案する。
学生モデルは、2つの教師モデルによってラベル付けされていない対象データとラベル付けされた情報源データの知識を学習する。
提案手法では, ラベルなしデータとモダリティ間データとを並列に利用でき, 性能が向上することを示した。
論文 参考訳(メタデータ) (2020-07-13T10:00:44Z) - Self-supervised Robust Object Detectors from Partially Labelled Datasets [3.1669406516464007]
データセットをマージすることで、複数のオブジェクトをトレーニングする代わりに、1つの統合オブジェクト検出器をトレーニングすることができます。
本稿では,統合されたデータセットのラベルの欠落を克服するためのトレーニングフレームワークを提案する。
VOC2012 と VOC2007 を用いて,Yolo の誤り率 $approx!48%$ で,シミュレーションした統合データセット上で Yolo をトレーニングするためのフレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-05-23T15:18:20Z) - Elastic Coupled Co-clustering for Single-Cell Genomic Data [0.0]
シングルセル技術により、前例のない解像度でゲノム機能をプロファイルできるようになった。
データ統合はクラスタリングアルゴリズムのパフォーマンスを向上させる可能性がある。
本研究では,教師なしの移動学習フレームワークで問題を定式化する。
論文 参考訳(メタデータ) (2020-03-29T08:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。