Fugu-MT 論文翻訳(概要): OneProt: Towards Multi-Modal Protein Foundation Models

論文の概要: OneProt: Towards Multi-Modal Protein Foundation Models

arxiv url: http://arxiv.org/abs/2411.04863v1
Date: Thu, 07 Nov 2024 16:54:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.436903
Title: OneProt: Towards Multi-Modal Protein Foundation Models
Title（参考訳）: OneProt: マルチモーダルタンパク質基盤モデルを目指して
Authors: Klemens Flöge, Srisruthi Udayakumar, Johanna Sommer, Marie Piraud, Stefan Kesselheim, Vincent Fortuin, Stephan Günneman, Karel J van der Weg, Holger Gohlke, Alina Bazarova, Erinc Merdivan,
Abstract要約: 我々は、構造、配列、アライメント、結合サイトデータを統合する、タンパク質のためのマルチモーダルAIであるOneProtを紹介する。金属イオン結合分類、遺伝子オントロジーアノテーション、酵素機能予測など、様々な下流タスクにおける最先端の手法を超越している。この研究は、タンパク質モデルにおけるマルチモーダル能力を拡大し、薬物発見、生物触媒反応計画、タンパク質工学の応用への道を開く。
参考スコア（独自算出の注目度）: 5.440531199006399
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent AI advances have enabled multi-modal systems to model and translate diverse information spaces. Extending beyond text and vision, we introduce OneProt, a multi-modal AI for proteins that integrates structural, sequence, alignment, and binding site data. Using the ImageBind framework, OneProt aligns the latent spaces of modality encoders along protein sequences. It demonstrates strong performance in retrieval tasks and surpasses state-of-the-art methods in various downstream tasks, including metal ion binding classification, gene-ontology annotation, and enzyme function prediction. This work expands multi-modal capabilities in protein models, paving the way for applications in drug discovery, biocatalytic reaction planning, and protein engineering.
Abstract（参考訳）: 近年のAIの進歩により、マルチモーダルシステムは多様な情報空間をモデル化し、翻訳することが可能になった。テキストとビジョンを超えて、構造、シーケンス、アライメント、サイトデータのバインディングを統合する、タンパク質のためのマルチモーダルAIであるOneProtを導入する。 ImageBindフレームワークを使用することで、OneProtはタンパク質配列に沿ってモダリティエンコーダの潜在空間を整列させる。検索タスクにおいて高い性能を示し、金属イオン結合分類、遺伝子オントロジーアノテーション、酵素機能予測など、様々な下流タスクにおいて最先端の手法を超越している。この研究は、タンパク質モデルにおけるマルチモーダル能力を拡大し、薬物発見、生物触媒反応計画、タンパク質工学の応用への道を開く。

関連論文リスト

Swarms of Large Language Model Agents for Protein Sequence Design with Experimental Validation [0.9332987715848714]
大規模言語モデル(LLM)エージェントは並列に動作し、それぞれ特定の残基位置に割り当てられる。この位置的、非集中的な調整は、多様で明確に定義されたシーケンスの創発的設計を可能にする。提案手法は,数時間以内に効率よく客観的な設計を実現し,微調整や特殊訓練を行なわずに完全に動作させる。
論文参考訳（メタデータ） (2025-11-27T10:42:52Z)
MergeDNA: Context-aware Genome Modeling with Dynamic Tokenization through Token Merging [65.07273789940116]
本稿では,動的ゲノミクストークンと潜在トランスフォーマーをコンテキスト対応事前学習タスクで協調的に最適化する階層型アーキテクチャを提案する。 MergeDNAは3つの人気のあるDNAベンチマークと、微調整やゼロショット評価を伴う複数のマルチオミクスタスクにおいて優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-11-17T19:27:41Z)
Enhancing Multimodal Protein Function Prediction Through Dual-Branch Dynamic Selection with Reconstructive Pre-Training [19.3863460349536]
動的選択と再構成事前学習機構を利用した多モードタンパク質機能予測法(DSRPGO)を提案する。提案するDSRPGOモデルは,人間のデータセット上でのBPO,MFO,CCOを大幅に改善する。
論文参考訳（メタデータ） (2025-11-06T04:19:42Z)
ProteinAE: Protein Diffusion Autoencoders for Structure Encoding [64.77182442408254]
本稿では,新規かつ合理化されたタンパク質拡散オートエンコーダであるProteinAEを紹介する。プロテインAEは、タンパク質のバックボーン座標を直接E(3)から連続的でコンパクトな潜在空間にマッピングする。本研究では,既存のオートエンコーダよりも優れた,最先端の再構築品質を実現することを実証する。
論文参考訳（メタデータ） (2025-10-12T14:30:32Z)
Bidirectional Representations Augmented Autoregressive Biological Sequence Generation:Application in De Novo Peptide Sequencing [51.12821379640881]
自己回帰(AR)モデルは、全体的な双方向表現を提供するが、生成的コヒーレンスとスケーラビリティに関する課題に直面している。非自己回帰機構からリッチなコンテキスト情報を動的に統合することにより、AR生成を向上するハイブリッドフレームワークを提案する。新しいクロスデコーダアテンションモジュールにより、ARデコーダは、これらの双方向機能を反復的にクエリし、統合することができる。
論文参考訳（メタデータ） (2025-10-09T12:52:55Z)
Prot2Token: A Unified Framework for Protein Modeling via Next-Token Prediction [19.164841536081568]
Prot2Tokenは、タンパク質関連予測の幅広い範囲を変換することで、課題を克服する統合フレームワークである。 Prot2Tokenのコアは自動回帰デコーダで、事前訓練されたタンパク質エンコーダの埋め込みを条件とし、学習可能なタスクトークンでガイドされる。 Prot2Tokensは様々な種類のタンパク質予測タスクにおいて強い予測力を示す。
論文参考訳（メタデータ） (2025-05-26T23:50:36Z)
An All-Atom Generative Model for Designing Protein Complexes [49.09672038729524]
APM(All-Atom Protein Generative Model)は、マルチチェーンタンパク質をモデル化するためのモデルである。原子レベルの情報を統合し、多鎖タンパク質のデータを活用することで、APMは鎖間相互作用を正確にモデル化し、結合能力を持つタンパク質複合体をゼロから設計することができる。
論文参考訳（メタデータ） (2025-04-17T16:37:41Z)
Bidirectional Hierarchical Protein Multi-Modal Representation Learning [4.682021474006426]
大規模タンパク質配列で事前訓練されたタンパク質言語モデル(pLM)は、配列ベースタスクにおいて大きな成功を収めた。 3次元構造情報を活用するために設計されたグラフニューラルネットワーク(GNN)は、タンパク質関連予測タスクにおいて有望な一般化を示している。本フレームワークでは,PLMの生成するシーケンシャル表現とGNN抽出した構造特徴との効果的な相互作用を実現するために,注意とゲーティング機構を採用している。
論文参考訳（メタデータ） (2025-04-07T06:47:49Z)
Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [53.488387420073536]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。 Life-Codeは3つのオミクスにまたがる様々なタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-11T06:53:59Z)
Computational Protein Science in the Era of Large Language Models (LLMs) [54.35488233989787]
計算タンパク質科学(Computational protein science)は、タンパク質配列構造-機能パラダイムにおける知識を明らかにすること、および応用を開発することを目的としている。最近、言語モデル (Language Models, PLM) は、前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
論文参考訳（メタデータ） (2025-01-17T16:21:18Z)
SFM-Protein: Integrative Co-evolutionary Pre-training for Advanced Protein Sequence Representation [97.99658944212675]
タンパク質基盤モデルのための新しい事前学習戦略を導入する。アミノ酸残基間の相互作用を強調し、短距離および長距離の共進化的特徴の抽出を強化する。大規模タンパク質配列データセットを用いて学習し,より優れた一般化能力を示す。
論文参考訳（メタデータ） (2024-10-31T15:22:03Z)
Long-context Protein Language Model [76.95505296417866]
言語モデル(LM)の自己教師による訓練は、有意義な表現の学習や創薬設計において、タンパク質配列に大きな成功を収めている。ほとんどのタンパク質LMは、短い文脈長を持つ個々のタンパク質に基づいて訓練されたトランスフォーマーアーキテクチャに基づいている。そこで我々は,選択的構造化状態空間モデルから構築した代替のタンパク質LMアーキテクチャであるBiMamba-Sに基づくLC-PLMを提案する。また、第2段階のトレーニングのために、タンパク質-タンパク質相互作用グラフの文脈化を行うLC-PLM-Gも導入した。
論文参考訳（メタデータ） (2024-10-29T16:43:28Z)
MAMMAL -- Molecular Aligned Multi-Modal Architecture and Language [0.24434823694833652]
MAMMALは、大規模生物学的データセットから学習する多目的マルチタスク基盤モデルである。我々は、幅広い分類、回帰、生成タスクをサポートするプロンプト構文を導入する。典型的薬物発見パイプライン内の異なるステップにまたがる11種類の下流タスクのモデルを評価した。
論文参考訳（メタデータ） (2024-10-28T20:45:52Z)
Structure Language Models for Protein Conformation Generation [66.42864253026053]
伝統的な物理学に基づくシミュレーション手法は、しばしばサンプリング平衡整合に苦しむ。深い生成モデルは、より効率的な代替としてタンパク質のコンホメーションを生成することを約束している。本稿では,効率的なタンパク質コンホメーション生成のための新しいフレームワークとして構造言語モデリングを紹介する。
論文参考訳（メタデータ） (2024-10-24T03:38:51Z)
Unifying Sequences, Structures, and Descriptions for Any-to-Any Protein Generation with the Large Multimodal Model HelixProtX [14.927425008686692]
我々は,大規模マルチモーダルモデル上に構築されたHelixProtXを導入し,タンパク質の任意のモダリティ生成をサポートする。 HelixProtXは、さまざまなタンパク質関連のタスクにおいて、常に優れた精度を達成し、既存の最先端モデルよりも優れています。
論文参考訳（メタデータ） (2024-07-12T14:03:02Z)
Diffusion on language model encodings for protein sequence generation [0.5182791771937247]
本稿では,タンパク質言語モデル表現で動作する潜在拡散フレームワークであるDiMAを提案する。私たちのフレームワークは、新しい、高品質で多様なタンパク質配列を一貫して生成します。これは、タンパク質ファミリーの生成、モチーフの足場と埋め込み、折りたたみ特異的な配列設計を含む条件付き生成タスクをサポートする。
論文参考訳（メタデータ） (2024-03-06T14:15:20Z)
xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。 xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文参考訳（メタデータ） (2024-01-11T15:03:17Z)
Target-aware Variational Auto-encoders for Ligand Generation with Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文参考訳（メタデータ） (2023-08-02T12:08:17Z)
Prot2Text: Multimodal Protein's Function Generation with GNNs and Transformers [18.498779242323582]
本稿では,タンパク質の機能を自由テキスト形式で予測する新しいアプローチであるProt2Textを提案する。エンコーダ・デコーダフレームワークでグラフニューラルネットワーク(GNN)とLarge Language Models(LLM)を組み合わせることにより,本モデルは多種多様なデータ型を効果的に統合する。
論文参考訳（メタデータ） (2023-07-25T09:35:43Z)
Generative Pretrained Autoregressive Transformer Graph Neural Network applied to the Analysis and Discovery of Novel Proteins [0.0]
本稿では,タンパク質モデリングにおける複雑な前方および逆問題を解決するために,フレキシブル言語モデルに基づくディープラーニング戦略を適用した。本モデルを用いて, 二次構造含量(残量レベル, 全体含量), タンパク質溶解度, シークエンシングタスクの予測を行った。追加タスクを追加することで、モデルが全体的なパフォーマンスを改善するために活用する創発的なシナジーが得られることが分かりました。
論文参考訳（メタデータ） (2023-05-07T12:30:24Z)
A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文参考訳（メタデータ） (2023-05-06T19:10:19Z)
PEER: A Comprehensive and Multi-Task Benchmark for Protein Sequence Understanding [17.770721291090258]
PEERは、Protein sEquence undERstandingの包括的なマルチタスクベンチマークである。タンパク質機能予測、タンパク質局在予測、タンパク質構造予測、タンパク質-リガンド相互作用予測を含む、多様なタンパク質理解タスクのセットを提供する。我々は,従来の特徴工学的手法,異なる配列符号化手法,および大規模事前学習されたタンパク質言語モデルなど,各タスクに対するシーケンスベース手法の評価を行った。
論文参考訳（メタデータ） (2022-06-05T05:21:56Z)
Learning Geometrically Disentangled Representations of Protein Folding Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文参考訳（メタデータ） (2022-05-20T19:38:00Z)
CCVS: Context-aware Controllable Video Synthesis [95.22008742695772]
プレゼンテーションでは、古いビデオクリップから新しいビデオクリップを合成するための自己教師付き学習アプローチを紹介している。時間的連続性のための文脈情報と微妙な制御のための補助情報に基づいて合成過程を規定する。
論文参考訳（メタデータ） (2021-07-16T17:57:44Z)
BERTology Meets Biology: Interpreting Attention in Protein Language Models [124.8966298974842]
注目レンズを用いたタンパク質トランスフォーマーモデルの解析方法を示す。注意はタンパク質の折りたたみ構造を捉え、基礎となる配列では遠く離れているが、三次元構造では空間的に近接しているアミノ酸を接続する。また、注意とタンパク質構造との相互作用を三次元的に可視化する。
論文参考訳（メタデータ） (2020-06-26T21:50:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。