論文の概要: Omni-Mol: Exploring Universal Convergent Space for Omni-Molecular Tasks
- arxiv url: http://arxiv.org/abs/2502.01074v1
- Date: Mon, 03 Feb 2025 05:33:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:58:03.244683
- Title: Omni-Mol: Exploring Universal Convergent Space for Omni-Molecular Tasks
- Title(参考訳): Omni-Mol:Omni-Molecular Tasksのためのユニバーサル収束空間の探索
- Authors: Chengxin Hu, Hao Li, Yihe Yuan, Zezheng Song, Haixin Wang,
- Abstract要約: 一般論モデルの構築は、近年、様々な科学的領域において顕著な能力を示している。
分子表現の競合は、モデルの最適化に困難をもたらす可能性がある。
本稿では,Omni-Molについて述べる。
- 参考スコア(独自算出の注目度): 6.849025449303022
- License:
- Abstract: Building generalist models has recently demonstrated remarkable capabilities in diverse scientific domains. Within the realm of molecular learning, several studies have explored unifying diverse tasks across diverse domains. However, negative conflicts and interference between molecules and knowledge from different domain may have a worse impact in threefold. First, conflicting molecular representations can lead to optimization difficulties for the models. Second, mixing and scaling up training data across diverse tasks is inherently challenging. Third, the computational cost of refined pretraining is prohibitively high. To address these limitations, this paper presents Omni-Mol, a scalable and unified LLM-based framework for direct instruction tuning. Omni-Mol builds on three key components to tackles conflicts: (1) a unified encoding mechanism for any task input; (2) an active-learning-driven data selection strategy that significantly reduces dataset size; (3) a novel design of the adaptive gradient stabilization module and anchor-and-reconcile MoE framework that ensures stable convergence. Experimentally, Omni-Mol achieves state-of-the-art performance across 15 molecular tasks, demonstrates the presence of scaling laws in the molecular domain, and is supported by extensive ablation studies and analyses validating the effectiveness of its design. The code and weights of the powerful AI-driven chemistry generalist are open-sourced at: https://anonymous.4open.science/r/Omni-Mol-8EDB.
- Abstract(参考訳): 一般論モデルの構築は、近年、様々な科学的領域において顕著な能力を示している。
分子学習の領域では、様々な領域にまたがる多様なタスクの統一が研究されている。
しかし、異なる領域からの分子と知識の間の負の衝突と干渉は、3倍に悪影響を及ぼす可能性がある。
第一に、矛盾する分子表現はモデルの最適化に困難をもたらす可能性がある。
第二に、さまざまなタスクにまたがるトレーニングデータの混合とスケールアップは本質的に困難です。
第三に、洗練された事前訓練の計算コストは禁断に高い。
これらの制約に対処するため,本論文では,直接命令チューニングのためのスケーラブルで統一的なLLMベースのフレームワークであるOmni-Molを提案する。
Omni-Molは,(1)タスク入力のための統一符号化機構,(2)データセットサイズを著しく削減するアクティブラーニング駆動型データ選択戦略,(3)適応的勾配安定化モジュールの設計,および安定した収束を保証するアンカー・アンド・レコンシブルなMoEフレームワークという,3つの重要なコンポーネントを基盤としている。
実験的に、Omni-Molは15の分子領域にまたがる最先端のパフォーマンスを達成し、分子領域におけるスケーリング法則の存在を実証し、広範囲にわたるアブレーション研究と、その設計の有効性を検証する分析によって支持されている。
強力なAI駆動化学一般主義者のコードと重みは、https://anonymous.4open.science/r/Omni-Mol-8EDBでオープンソース化されている。
関連論文リスト
- Improving Molecular Modeling with Geometric GNNs: an Empirical Study [56.52346265722167]
本稿では,異なる標準化手法,(2)グラフ作成戦略,(3)補助的なタスクが性能,拡張性,対称性の強制に与える影響に焦点をあてる。
本研究の目的は,分子モデリングタスクに最適なモデリングコンポーネントの選択を研究者に案内することである。
論文 参考訳(メタデータ) (2024-07-11T09:04:12Z) - Token-Mol 1.0: Tokenized drug design with large language model [10.258299488278514]
Token-Molはトークンのみの3Dドラッグデザインモデルで、2Dや3D構造を含む全ての分子情報をトークンにエンコードする。
トランスデコーダアーキテクチャ上に構築され、ランダム因果マスキング技術を用いて訓練されている。
既存の分子事前学習モデルと比較して、Token-Molはより幅広い下流タスクを扱うのに優れた習熟度を示す。
論文 参考訳(メタデータ) (2024-07-10T07:22:15Z) - UniIF: Unified Molecule Inverse Folding [67.60267592514381]
全分子の逆折り畳みのための統一モデルUniIFを提案する。
提案手法は,全タスクにおける最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-05-29T10:26:16Z) - Atomas: Hierarchical Alignment on Molecule-Text for Unified Molecule Understanding and Generation [42.08917809689811]
SMILES文字列とテキストから表現を共同学習するマルチモーダルな分子表現学習フレームワークAtomasを提案する。
検索タスクでは、Atomasは堅牢な一般化能力を示し、ベースラインを平均30.8%上回っている。
生成タスクでは、Atomasは分子キャプションタスクと分子生成タスクの両方で最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-04-23T12:35:44Z) - nach0: Multimodal Natural and Chemical Languages Foundation Model [7.815497069231599]
本稿では, 様々な化学的・生物学的課題を解決できる新しい基礎モデルであるnach0を紹介する。
nach0は、科学文献、特許、分子文字列の未ラベルテキストで事前訓練されたマルチドメインおよびマルチタスクエンコーダLLMである。
論文 参考訳(メタデータ) (2023-11-21T07:56:30Z) - A Universal Framework for Accurate and Efficient Geometric Deep Learning
of Molecular Systems [19.268713909099507]
PAMNetは、どんな分子系でも様々な大きさの3D分子の表現を学習するための普遍的なフレームワークである。
分子力学にインスパイアされたPAMNetは、局所的および非局所的相互作用とそれらの結合効果を明示的にモデル化するために、物理インフォームドバイアスを誘導する。
ベンチマーク研究において、PAMNetは3つの多様な学習タスクにおいて、正確性と効率の両面で最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-11-19T04:52:05Z) - Learning Invariant Molecular Representation in Latent Discrete Space [52.13724532622099]
本稿では,分散シフトに対する不変性とロバスト性を示す分子表現を学習するための新しい枠組みを提案する。
我々のモデルは、様々な分布シフトが存在する場合に、最先端のベースラインに対してより強力な一般化を実現する。
論文 参考訳(メタデータ) (2023-10-22T04:06:44Z) - Learning Over Molecular Conformer Ensembles: Datasets and Benchmarks [44.934084652800976]
コンフォーマーアンサンブルを用いた学習の可能性を徹底的に評価するための,最初のMoleculAR Conformer Ensemble Learningベンチマークを導入する。
その結果,コンバータ空間からの直接学習は,様々なタスクやモデルの性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-09-29T20:06:46Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - ASGN: An Active Semi-supervised Graph Neural Network for Molecular
Property Prediction [61.33144688400446]
本稿では,ラベル付き分子とラベルなし分子の両方を組み込んだ,アクティブ半教師付きグラフニューラルネットワーク(ASGN)を提案する。
教師モデルでは,分子構造や分子分布から情報を共同で活用する汎用表現を学習するための,新しい半教師付き学習手法を提案する。
最後に,分子多様性の観点から,フレームワーク学習全体を通して情報的データを選択するための新しい能動的学習戦略を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。