Fugu-MT 論文翻訳(概要): Towards Faster and More Compact Foundation Models for Molecular Property Prediction

論文の概要: Towards Faster and More Compact Foundation Models for Molecular Property Prediction

arxiv url: http://arxiv.org/abs/2504.19538v1
Date: Mon, 28 Apr 2025 07:41:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:54.348843
Title: Towards Faster and More Compact Foundation Models for Molecular Property Prediction
Title（参考訳）: 分子特性予測のための高速でコンパクトな基礎モデルを目指して
Authors: Yasir Ghunaim, Andrés Villa, Gergo Ignacz, Gyorgy Szekely, Motasem Alfarra, Bernard Ghanem,
Abstract要約: 統合マルチドメイン事前学習(JMP)基盤モデルは、下流の様々なタスクに対して強い性能を示す。 JMPの利点にもかかわらず、小規模から大規模までの分子データセットを微調整するにはかなりの時間と計算資源が必要である。分子・材料発見のための軽量で高速でスケーラブルな基礎モデルを構築するための知見を提供する。
参考スコア（独自算出の注目度）: 44.64301507940171
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Advancements in machine learning for molecular property prediction have improved accuracy but at the expense of higher computational cost and longer training times. Recently, the Joint Multi-domain Pre-training (JMP) foundation model has demonstrated strong performance across various downstream tasks with reduced training time over previous models. Despite JMP's advantages, fine-tuning it on molecular datasets ranging from small-scale to large-scale requires considerable time and computational resources. In this work, we investigate strategies to enhance efficiency by reducing model size while preserving performance. To better understand the model's efficiency, we analyze the layer contributions of JMP and find that later interaction blocks provide diminishing returns, suggesting an opportunity for model compression. We explore block reduction strategies by pruning the pre-trained model and evaluating its impact on efficiency and accuracy during fine-tuning. Our analysis reveals that removing two interaction blocks results in a minimal performance drop, reducing the model size by 32% while increasing inference throughput by 1.3x. These results suggest that JMP-L is over-parameterized and that a smaller, more efficient variant can achieve comparable performance with lower computational cost. Our study provides insights for developing lighter, faster, and more scalable foundation models for molecular and materials discovery. The code is publicly available at: https://github.com/Yasir-Ghunaim/efficient-jmp.
Abstract（参考訳）: 分子特性予測のための機械学習の進歩は精度を向上したが、高い計算コストと長い訓練時間を犠牲にしている。近年,JMP(Joint Multi-Domain Pre-Training)基盤モデルは,従来のモデルよりもトレーニング時間を短縮し,様々な下流タスクに対して高い性能を示した。 JMPの利点にもかかわらず、小規模から大規模までの分子データセットを微調整するにはかなりの時間と計算資源が必要である。本研究では,性能を保ちながらモデルサイズを小さくすることで効率を向上する戦略について検討する。モデルの効率をよりよく理解するために、我々はJMPのレイヤーコントリビューションを分析し、後続の相互作用ブロックがリターンを減少させ、モデル圧縮の機会を示唆する。我々は,事前学習モデルを用いてブロック削減戦略を検討し,その効果を微調整時の効率と精度に与える影響を検証した。解析の結果,2つの相互作用ブロックを除去すると最小性能が低下し,モデルサイズが32%減少し,推論スループットが1.3倍向上することがわかった。これらの結果は、JMP-Lは過パラメータ化されており、より小さく、より効率的な変種は計算コストを低くして同等の性能が得られることを示唆している。分子・材料発見のための軽量で高速でスケーラブルな基礎モデルを構築するための知見を提供する。コードは、https://github.com/Yasir-Ghunaim/efficient-jmp.comで公開されている。

関連論文リスト

Neural Parameter Search for Slimmer Fine-Tuned Models and Better Transfer [17.463052541838504]
微調整されたモデルは、しばしば特定のドメインの外で苦労し、かなりの冗長性を示す。近年の研究では、プルーニングされた微調整モデルと元の事前学習モデルを組み合わせることで、タスク間でモデルパラメータをマージする際の干渉を軽減することが示唆されている。微調整モデルのスリム化のためのニューラル・プルーニング(NPS-Pruning)という新しい手法を提案する。
論文参考訳（メタデータ） (2025-05-24T14:27:20Z)
Improved Methods for Model Pruning and Knowledge Distillation [3.8993503758122663]
MAMAプルーニング(MAMA Pruning)は、R1やo3-miniのような大規模言語モデルのパフォーマンス最適化手法である。モデルのサイズと計算の複雑さを効果的に減らし、極端なプルーニングレベルでも元の未実行モデルに匹敵する性能を維持しながら維持する。予備的な実験結果から,本手法は様々なプルーニングレベルおよび下流の計算言語タスクにおいて,最先端の手法に匹敵する性能を示した。
論文参考訳（メタデータ） (2025-05-20T07:53:40Z)
Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
TRAWL: Tensor Reduced and Approximated Weights for Large Language Models [11.064868044313855]
TRAWL (Tensor Reduced and Approximated Weights for Large Language Models) は、複数の重み行列に対してテンソル分解を適用し、大域的な構造パターンを捉えることでLLMを効果的に分解する手法である。我々の実験によると、TRAWLは、追加のデータやトレーニング、微調整を必要とせず、ベンチマークデータセットのベースラインモデルよりも最大16%モデル性能を向上させる。
論文参考訳（メタデータ） (2024-06-25T04:01:32Z)
Are Protein Language Models Compute Optimal? [0.0]
固定計算予算におけるモデルパラメータとトレーニングトークンの最適比について検討する。本研究により, pLM サイズは計算予算とともにサブ線形にスケールし, モデルサイズが大きくなるにつれて性能が低下することが示された。この研究は、より計算効率の良いPLMへの道を開き、そのトレーニングと計算生物学の実践的応用を民主化している。
論文参考訳（メタデータ） (2024-06-11T13:32:11Z)
Enhancing Inference Efficiency of Large Language Models: Investigating Optimization Strategies and Architectural Innovations [0.0]
この論文はモデル圧縮の手法を探求する。モデル圧縮の有効な方法として,トランスフォーマーLLMにおいて,後続の注意サブレイヤをスキップする簡単な手法を実証的に示す。その結果,Llama 2 7Bでは21%の高速化が見られた。
論文参考訳（メタデータ） (2024-04-02T19:53:54Z)
Reusing Pretrained Models by Multi-linear Operators for Efficient Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。 bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文参考訳（メタデータ） (2023-10-16T06:16:47Z)
Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。モデル圧縮は視覚的プロンプトベース転送の性能に有害である。しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文参考訳（メタデータ） (2023-08-29T01:47:49Z)
Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-06-30T21:57:07Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文参考訳（メタデータ） (2021-06-18T01:03:13Z)
SuperMeshing: A New Deep Learning Architecture for Increasing the Mesh Density of Metal Forming Stress Field with Attention Mechanism and Perceptual Features [1.0660502023086995]
我々はSuperMeshingNetという新しいデータ駆動メッシュ密度向上モデルを提案する。ディープラーニングモデルへの入力としてメッシュ密度の低い有限要素解析(FEA)の利点を強化する。線形法を適用したベースラインと比較して、SuperMeshingNetはテストデータの平均二乗誤差(MSE)と平均絶対誤差(MAE)を顕著に低減する。
論文参考訳（メタデータ） (2021-03-12T06:02:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。