Fugu-MT 論文翻訳(概要): Data Fusion of Deep Learned Molecular Embeddings for Property Prediction

論文の概要: Data Fusion of Deep Learned Molecular Embeddings for Property Prediction

arxiv url: http://arxiv.org/abs/2504.07297v1
Date: Wed, 09 Apr 2025 21:40:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-19 00:49:50.975725
Title: Data Fusion of Deep Learned Molecular Embeddings for Property Prediction
Title（参考訳）: 特性予測のための深層学習分子埋め込みのデータ融合
Authors: Robert J Appleton, Brian C Barnes, Alejandro Strachan,
Abstract要約: 我々はデータ融合技術を用いて、様々な単一タスクモデルの学習された分子組込みを組み合わせ、この組込みについてマルチタスクモデルを訓練した。融合マルチタスクモデルはスパースデータセットの標準マルチタスクモデルより優れており、単一タスクモデルと比較してデータ制限特性の予測が拡張可能であることを示す。
参考スコア（独自算出の注目度）: 44.99833362998488
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data-driven approaches such as deep learning can result in predictive models for material properties with exceptional accuracy and efficiency. However, in many problems data is sparse, severely limiting their accuracy and applicability. To improve predictions, techniques such as transfer learning and multi-task learning have been used. The performance of multi-task learning models depends on the strength of the underlying correlations between tasks and the completeness of the dataset. We find that standard multi-task models tend to underperform when trained on sparse datasets with weakly correlated properties. To address this gap, we use data fusion techniques to combine the learned molecular embeddings of various single-task models and trained a multi-task model on this combined embedding. We apply this technique to a widely used benchmark dataset of quantum chemistry data for small molecules as well as a newly compiled sparse dataset of experimental data collected from literature and our own quantum chemistry and thermochemical calculations. The results show that the fused, multi-task models outperform standard multi-task models for sparse datasets and can provide enhanced prediction on data-limited properties compared to single-task models.
Abstract（参考訳）: ディープラーニングのようなデータ駆動型アプローチは、極めて精度と効率のよい材料特性の予測モデルをもたらす可能性がある。しかし、多くの問題においてデータは希少であり、精度と適用性を著しく制限している。予測を改善するために、トランスファーラーニングやマルチタスクラーニングといった技術が用いられている。マルチタスク学習モデルの性能は、タスクとデータセットの完全性の間の基礎となる相関性の強さに依存する。標準マルチタスクモデルは、弱い相関特性を持つスパースデータセットで訓練すると、性能が低下する傾向にある。このギャップに対処するために、我々はデータ融合技術を用いて、様々な単一タスクモデルの学習された分子組込みを組み合わせ、この組込みに関するマルチタスクモデルを訓練した。本手法は、小分子の量子化学データのベンチマークデータセットや、文献から収集した実験データのスパースデータセット、および我々の量子化学および熱化学計算に広く用いられている。その結果、融合したマルチタスクモデルはスパースデータセットの標準マルチタスクモデルより優れており、シングルタスクモデルと比較してデータ制限特性の予測が拡張可能であることがわかった。

関連論文リスト

Cross-Learning from Scarce Data via Multi-Task Constrained Optimization [70.90607489166648]
本稿では,データ不足を克服するマルチタスク・エンフクロス学習フレームワークを提案する。我々はこの結合推定を制約付き最適化問題として定式化する。本研究では, 画像分類や伝染病の伝播を含む実データを用いて, クロスラーニング手法の有効性を示す。
論文参考訳（メタデータ） (2025-11-17T18:35:59Z)
SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
The Power of Certainty: How Confident Models Lead to Better Segmentation [0.0]
本稿では,トレーニング中の過去のデータストレージのみを活用することにより,最先端モデルよりも優れた信頼性に基づく自己蒸留手法を提案する。本手法は,複数の臨床センターから収集したデータセットを網羅的に一般化する。
論文参考訳（メタデータ） (2025-07-14T17:12:43Z)
DIM-SUM: Dynamic IMputation for Smart Utility Management [4.494470981739729]
DIM-SUMは、頑健な計算モデルをトレーニングするための前処理フレームワークである。 DIM-SUMは、人工的にマスクされたトレーニングデータと本当の欠落パターンのギャップを埋める。 DIM-SUMは、処理時間が少なく、トレーニングデータも大幅に少ないため、従来の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-24T21:38:06Z)
Efficient Flow Matching using Latent Variables [3.5817637191799605]
我々は、マルチモーダルデータ構造を組み込むための簡易なトレーニング/推論戦略を提供する、$textttLatent-CFM$を提示する。 textttLatent-CFM$は、トレーニングを著しく減らして、生成品質が向上していることを示す。
論文参考訳（メタデータ） (2025-05-07T14:59:23Z)
Exploring the Efficacy of Meta-Learning: Unveiling Superior Data Diversity Utilization of MAML Over Pre-training [1.3980986259786223]
データセットの多様性が視覚モデルの性能に影響を及ぼすことを示す。本研究は,テストセットの精度とデータの多様性との間に正の相関関係を示す。これらの結果は我々の仮説を支持し、形式的なデータの多様性がモデルの性能にどのように影響するかをより深く探究するための有望な方法を示す。
論文参考訳（メタデータ） (2025-01-15T00:56:59Z)
Physical Consistency Bridges Heterogeneous Data in Molecular Multi-Task Learning [79.75718786477638]
我々は、それらを接続する物理法則が存在する分子的タスクの専門性を生かし、整合性トレーニングアプローチを設計する。より正確なエネルギーデータにより、構造予測の精度が向上することを示した。また、整合性トレーニングは、構造予測を改善するために、力と非平衡構造データを直接活用できることがわかった。
論文参考訳（メタデータ） (2024-10-14T03:11:33Z)
Analysing Multi-Task Regression via Random Matrix Theory with Application to Time Series Forecasting [16.640336442849282]
我々は,マルチタスク最適化問題を正規化手法として定式化し,マルチタスク学習情報を活用することを可能とする。線形モデルの文脈におけるマルチタスク最適化のための閉形式解を導出する。
論文参考訳（メタデータ） (2024-06-14T17:59:25Z)
Towards Precision Healthcare: Robust Fusion of Time Series and Image Data [8.579651833717763]
本稿では,データの種類毎に2つのエンコーダを用いて,視覚情報と時間情報の両方において複雑なパターンをモデル化する手法を提案する。また、不均衡なデータセットに対処し、不確実性損失関数を使用し、改善した結果を得る。本手法は,臨床応用におけるマルチモーダルディープラーニングの改善に有効であることを示す。
論文参考訳（メタデータ） (2024-05-24T11:18:13Z)
Transfer Learning for Molecular Property Predictions from Small Data Sets [0.0]
2つの小さなデータセット上での分子特性の予測のために、一般的な機械学習モデルをベンチマークする。本稿では,大規模なデータセットを用いて各モデルを事前学習し,元のデータセットを微調整した上で,より正確なモデルを得ることができる転送学習戦略を提案する。
論文参考訳（メタデータ） (2024-04-20T14:25:34Z)
Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文参考訳（メタデータ） (2023-05-29T05:20:38Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
On Measuring the Intrinsic Few-Shot Hardness of Datasets [49.37562545777455]
トレーニング済みのモデルに対して、データセットに固有の数ショットの硬さを示す。そこで我々は,数発の学習が可能な直感をとらえる,シンプルで軽量な尺度"Spread"を提案する。我々の測定基準は、既存の硬さの概念に比べて数発の硬さを考慮し、計算が8～100倍高速である。
論文参考訳（メタデータ） (2022-11-16T18:53:52Z)
CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文参考訳（メタデータ） (2022-05-30T13:34:46Z)
Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。 Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文参考訳（メタデータ） (2021-06-01T22:33:53Z)
Statistical learning for accurate and interpretable battery lifetime prediction [1.738360170201861]
バッテリー寿命予測のためのシンプルで正確で解釈可能なデータ駆動モデルを開発した。我々のアプローチは、新しいデータセットのモデルを迅速にトレーニングし、より高度な機械学習メソッドのパフォーマンスをベンチマークするためにも使用できます。
論文参考訳（メタデータ） (2021-01-06T06:05:24Z)
Polymer Informatics with Multi-Task Learning [0.06524460254566902]
固有相関を効果的に活用するマルチタスク学習手法の有用性を示す。 13,000ドルを超えるポリマーの36種類の異なる性質に関するデータは、統合され、ディープラーニングマルチタスクアーキテクチャに供給される。マルチタスクのアプローチは正確で、効率的で、スケーラブルで、同じまたは異なるプロパティ上のより多くのデータが利用可能になると、学習を転送できる。
論文参考訳（メタデータ） (2020-10-28T18:28:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。