論文の概要: Unlocking Chemical Insights: Superior Molecular Representations from Intermediate Encoder Layers
- arxiv url: http://arxiv.org/abs/2506.06443v1
- Date: Fri, 06 Jun 2025 18:03:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.275761
- Title: Unlocking Chemical Insights: Superior Molecular Representations from Intermediate Encoder Layers
- Title(参考訳): アンロック化ケミカルインサイト:中間エンコーダ層からの分子表現
- Authors: Luis Pinto,
- Abstract要約: 我々は、22個のADMET特性予測タスクにまたがる5種類の分子エンコーダの包括的解析を行う。
最適中間層からの固定埋め込みを用いることで、下流の性能は平均5.4%向上した。
これらの中間層への微調整により平均改善率は8.5%となり、性能は40.8%まで向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained molecular encoders have become indispensable in computational chemistry for tasks such as property prediction and molecular generation. However, the standard practice of relying solely on final-layer embeddings for downstream tasks may discard valuable information. In this work, we challenge this convention by conducting a comprehensive layer-wise analysis of five diverse molecular encoders across 22 ADMET property prediction tasks. Our results demonstrate that embeddings from intermediate layers consistently outperform final-layer representations. Specifically, using fixed embeddings from the optimal intermediate layers improved downstream performance by an average of 5.4%, reaching gains up to 28.6%. Furthermore, finetuning up to these intermediate layers yielded even greater average improvements of 8.5%, with performance increases as high as 40.8%, achieving new state-of-the-art results on several benchmarks. Additionally, a strong positive correlation between fixed embedding performance and finetuning outcomes supports an efficient evaluate-then-finetune approach, enabling identification of optimal layers with reduced computational cost. These findings highlight the importance of exploring the full representational depth of molecular encoders to achieve substantial performance improvements and computational efficiency. The code is made publicly available at https://github.com/luispintoc/Unlocking-Chemical-Insights.
- Abstract(参考訳): 制約された分子エンコーダは、特性予測や分子生成といったタスクにおいて計算化学において欠かせないものとなっている。
しかし、下流タスクのための最終層埋め込みにのみ依存するという標準的な慣行は、貴重な情報を捨てる可能性がある。
本研究では,22個のADMET特性予測タスクにまたがる5種類の分子エンコーダを網羅的に階層的に解析することで,この問題に対処する。
その結果,中間層からの埋め込みは最終層表現よりも一貫して優れていた。
具体的には、最適な中間層からの固定埋め込みを使用することで、下流の性能は平均5.4%向上し、28.6%まで向上した。
さらに、これらの中間層への微調整により、パフォーマンスが最大40.8%向上し、いくつかのベンチマークで新たな最先端の結果が得られた。
さらに, 固定埋込み性能と微調整結果との強い正の相関関係は, 計算コストの低減による最適層同定を可能とし, 効率的な評価・精細化手法を支持する。
これらの知見は、分子エンコーダの完全な表現深度を探索し、大幅な性能向上と計算効率を達成することの重要性を浮き彫りにした。
コードはhttps://github.com/luispintoc/Unlocking-Chemical-Insightsで公開されている。
関連論文リスト
- RocketPPA: Ultra-Fast LLM-Based PPA Estimator at Code-Level Abstraction [4.825037489691159]
完全クリーン化および合成可能なVerilogモジュールの21kデータセットを活用する新しいフレームワークを導入する。
我々は、LoRAに基づくパラメータ効率の手法を用いてCodeLlamaを微調整し、タスクを回帰問題としてフレーミングし、VerilogコードからPPAメトリクスを正確に予測する。
論文 参考訳(メタデータ) (2025-03-27T20:35:09Z) - Beyond adaptive gradient: Fast-Controlled Minibatch Algorithm for large-scale optimization [1.6749379740049926]
そこで我々は,F-CMA,F-Controlled Mini-batchアルゴリズムを導入し,各エポックあたりの損失低減を確保するために,十分な減少条件とライン探索手順を備えたランダムリシャッフル法を提案する。
テストでは、トレーニング時間全体の68%の削減、エポック毎の効率の最大20%向上、モデル精度の最大5%向上など、大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-11-24T11:46:47Z) - AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs [61.13296177652599]
より小さなスケールで良好に機能するデータ混合物は、大規模なスケールではその利点を保たない可能性があることを示す。
2段階のスケール対応データ合成フレームワークであるAutoScaleを提案する。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - LayerMatch: Do Pseudo-labels Benefit All Layers? [77.59625180366115]
半教師付き学習はラベル付きデータの依存性を軽減するための有望なソリューションを提供する。
我々はGrad-ReLUとAvg-Clusteringという2つの層固有の擬似ラベル戦略を開発した。
提案手法は,標準的な半教師付き学習ベンチマークにおいて,例外的な性能を示す。
論文 参考訳(メタデータ) (2024-06-20T11:25:50Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。