論文の概要: Joint Embedding Predictive Architecture for self-supervised pretraining on polymer molecular graphs
- arxiv url: http://arxiv.org/abs/2506.18194v1
- Date: Sun, 22 Jun 2025 22:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.799032
- Title: Joint Embedding Predictive Architecture for self-supervised pretraining on polymer molecular graphs
- Title(参考訳): 高分子分子グラフを用いた自己教師型事前学習のための共同埋め込み予測アーキテクチャ
- Authors: Francesco Picolli, Gabriel Vogel, Jana M. Weber,
- Abstract要約: 高分子分子グラフ上での最近の「結合埋め込み予測アーキテクチャ(JEPA)」の利用について検討する。
以上の結果から,JEPAをベースとした高分子グラフによる自己教師付き事前学習が下流性能を向上させることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in machine learning (ML) have shown promise in accelerating the discovery of polymers with desired properties by aiding in tasks such as virtual screening via property prediction. However, progress in polymer ML is hampered by the scarcity of high-quality labeled datasets, which are necessary for training supervised ML models. In this work, we study the use of the very recent 'Joint Embedding Predictive Architecture' (JEPA), a type of architecture for self-supervised learning (SSL), on polymer molecular graphs to understand whether pretraining with the proposed SSL strategy improves downstream performance when labeled data is scarce. Our results indicate that JEPA-based self-supervised pretraining on polymer graphs enhances downstream performance, particularly when labeled data is very scarce, achieving improvements across all tested datasets.
- Abstract(参考訳): 機械学習(ML)の最近の進歩は、プロパティ予測による仮想スクリーニングなどのタスクを支援することで、望ましい性質を持つポリマーの発見を加速する可能性を示している。
しかし、高分子MLの進歩は、教師付きMLモデルのトレーニングに必要な高品質なラベル付きデータセットの不足によって妨げられている。
本研究では, 自己教師型学習(SSL)のためのアーキテクチャであるJEPA (Joint Embedding Predictive Architecture) を高分子分子グラフ上に構築し, ラベル付きデータが少ない場合に, SSL方式による事前学習が下流性能を向上させるかどうかを検討する。
以上の結果から,JEPAをベースとした高分子グラフによる自己教師付き事前学習は,特にラベル付きデータが非常に少ない場合において,下流のパフォーマンスを向上させることが示唆された。
関連論文リスト
- Supervised Pretraining for Material Property Prediction [0.36868085124383626]
自己教師付き学習(SSL)は、基盤モデルを開発するために、大規模でラベルなしのデータセットを事前トレーニングすることで、有望な代替手段を提供する。
そこで本研究では,教師付き事前学習を提案する。
表現学習をさらに強化するため,物質グラフを構造的に変形させることなく,ノイズを注入してロバスト性を向上させるグラフベースの拡張手法を提案する。
論文 参考訳(メタデータ) (2025-04-27T19:00:41Z) - Towards Data-Efficient Pretraining for Atomic Property Prediction [51.660835328611626]
タスク関連データセットでの事前トレーニングは、大規模な事前トレーニングと一致するか、あるいは超える可能性があることを示す。
本稿では,コンピュータビジョンのFr'echet Inception Distanceにインスパイアされた,化学類似度指数(CSI)を紹介する。
論文 参考訳(メタデータ) (2025-02-16T11:46:23Z) - Extrapolative ML Models for Copolymers [1.901715290314837]
機械学習モデルは、材料特性の予測に徐々に使われてきた。
これらのモデルは本質的に補間的であり、物質の既知の特性範囲外の候補を探索するための有効性は未解決である。
本稿では,MLモデルの外挿能力,トレーニングデータセットのサイズと範囲,学習アプローチとの関係について検討する。
論文 参考訳(メタデータ) (2024-09-15T11:02:01Z) - Simulation-Enhanced Data Augmentation for Machine Learning Pathloss
Prediction [9.664420734674088]
本稿では,機械学習パスロス予測のための新しいシミュレーション強化データ拡張手法を提案する。
本手法は,細胞被覆シミュレータから生成した合成データと,独立して収集した実世界のデータセットを統合する。
合成データの統合は、異なる環境におけるモデルの一般化可能性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-02-03T00:38:08Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Crystal Twins: Self-supervised Learning for Crystalline Material
Property Prediction [8.048439531116367]
結晶性物質特性予測のためのSSL法であるCrystal Twins(CT)を紹介する。
我々は、拡張インスタンスのグラフ潜在埋め込みに冗長性低減原理を適用して、グラフニューラルネットワーク(GNN)を事前訓練する。
回帰タスクのGNNを微調整する際の事前学習重みの共有により、7つの課題のある材料特性予測ベンチマークの性能を著しく改善する。
論文 参考訳(メタデータ) (2022-05-04T05:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。