論文の概要: A Comprehensive Review of Transformer-based language models for Protein Sequence Analysis and Design
- arxiv url: http://arxiv.org/abs/2507.13646v1
- Date: Fri, 18 Jul 2025 04:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.183824
- Title: A Comprehensive Review of Transformer-based language models for Protein Sequence Analysis and Design
- Title(参考訳): タンパク質配列解析・設計のためのトランスフォーマーベース言語モデルの概要
- Authors: Nimisha Ghosh, Daniele Santoni, Debaleena Nawn, Eleonora Ottaviani, Giovanni Felici,
- Abstract要約: Transformerベースの言語モデルの影響は、自然言語処理(NLP)において前例のないものだった。
このようなモデルの成功により、バイオインフォマティクスを含む他の分野にも採用されている。
本総説では,このような応用に関する研究を多数検討し,分析した。
- 参考スコア(独自算出の注目度): 0.9600277231719874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The impact of Transformer-based language models has been unprecedented in Natural Language Processing (NLP). The success of such models has also led to their adoption in other fields including bioinformatics. Taking this into account, this paper discusses recent advances in Transformer-based models for protein sequence analysis and design. In this review, we have discussed and analysed a significant number of works pertaining to such applications. These applications encompass gene ontology, functional and structural protein identification, generation of de novo proteins and binding of proteins. We attempt to shed light on the strength and weaknesses of the discussed works to provide a comprehensive insight to readers. Finally, we highlight shortcomings in existing research and explore potential avenues for future developments. We believe that this review will help researchers working in this field to have an overall idea of the state of the art in this field, and to orient their future studies.
- Abstract(参考訳): Transformerベースの言語モデルの影響は、自然言語処理(NLP)において前例のないものだった。
このようなモデルの成功により、バイオインフォマティクスを含む他の分野にも採用されている。
本稿では,タンパク質配列解析と設計のためのトランスフォーマーモデルの最新動向を考察する。
本総説では,このような応用に関する研究を多数検討し,分析した。
これらの用途には、遺伝子オントロジー、機能的および構造的タンパク質の同定、デノボタンパク質の生成、タンパク質の結合が含まれる。
我々は、議論された作品の強みと弱みに光を当てて、読者に総合的な洞察を提供しようとしている。
最後に、既存の研究の欠点を強調し、今後の発展に向けた潜在的な道を探る。
このレビューは、この分野の研究者がこの分野における最先端の全体像を把握し、将来の研究の方向性を高めるのに役立つと信じている。
関連論文リスト
- Transformers in Protein: A Survey [3.4460628622243448]
トランスフォーマーモデルは、タンパク質研究にまたがる多様な課題に対処する前例のない可能性を示している。
本稿では, タンパク質構造予測, 機能予測, タンパク質-タンパク質相互作用解析, 機能アノテーション, 薬物発見・標的同定など, 重要な領域を体系的に検討する。
各研究領域について、その目的と背景を概説し、先行手法とその限界を批判的に評価し、トランスフォーマーモデルによって実現された変革的貢献を強調する。
論文 参考訳(メタデータ) (2025-05-26T15:08:18Z) - Advanced Deep Learning Methods for Protein Structure Prediction and Design [28.575821996185024]
タンパク質構造予測と設計に応用した高度な深層学習手法を包括的に検討する。
テキストは、構造生成、評価指標、多重シーケンスアライメント処理、ネットワークアーキテクチャを含む重要なコンポーネントを分析する。
予測精度を向上し、深層学習技術と実験的検証を統合するための戦略を徹底的に検討した。
論文 参考訳(メタデータ) (2025-03-14T21:28:29Z) - Protein Large Language Models: A Comprehensive Survey [71.65899614084853]
タンパク質特異的な大規模言語モデル(Protein LLMs)は、より効率的なタンパク質構造予測、機能アノテーション、設計を可能にすることで、タンパク質科学に革命をもたらしている。
この作業は、アーキテクチャ、データセットのトレーニング、評価メトリクス、さまざまなアプリケーションをカバーする、Protein LLMの最初の包括的な概要を提供する。
論文 参考訳(メタデータ) (2025-02-21T19:22:10Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Computational Protein Science in the Era of Large Language Models (LLMs) [54.35488233989787]
計算タンパク質科学(Computational protein science)は、タンパク質配列構造-機能パラダイムにおける知識を明らかにすること、および応用を開発することを目的としている。
最近、言語モデル (Language Models, PLM) は、前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
論文 参考訳(メタデータ) (2025-01-17T16:21:18Z) - Open-Source Protein Language Models for Function Prediction and Protein Design [0.0]
タンパク質言語モデル(PLM)は、タンパク質配列の理解を改善することを約束しており、機能予測やタンパク質工学などの分野の発展に寄与している。
我々はPLMを、計算生物学と化学のためのオープンソースのフレームワークであるDeepChemに統合し、タンパク質関連のタスクのためのよりアクセスしやすいプラットフォームを提供する。
各種タンパク質予測タスクにおける統合モデルの性能評価を行い,ベンチマーク間で妥当な結果が得られることを示した。
論文 参考訳(メタデータ) (2024-12-18T05:41:15Z) - ProteinBench: A Holistic Evaluation of Protein Foundation Models [53.59325047872512]
本稿では,タンパク質基盤モデルのための総合評価フレームワークであるProteinBenchを紹介する。
本研究のアプローチは, タンパク質ドメインにおける課題を包括的に包括するタスクの分類学的分類, (ii) 品質, 新規性, 多様性, 堅牢性, および (iii) 様々なユーザ目標から詳細な分析を行い, モデルパフォーマンスの全体的視点を提供する,4つの重要な側面にわたるパフォーマンスを評価するマルチメトリック評価アプローチからなる。
論文 参考訳(メタデータ) (2024-09-10T06:52:33Z) - Boosting Protein Language Models with Negative Sample Mining [20.721167029530168]
本稿では,タンパク質表現学習分野における大規模言語モデル向上のための先駆的手法を提案する。
私たちの主な貢献は、共進化の知識への過度な信頼を関連付けるための洗練プロセスにあります。
本手法は,この新たなアプローチを活かして,注目スコア空間内でのトランスフォーマーベースモデルのトレーニングを支援する。
論文 参考訳(メタデータ) (2024-05-28T07:24:20Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Exploring the Protein Sequence Space with Global Generative Models [0.0]
言語モデルは、人間の言語を処理、翻訳、生成する際、例外的な能力を示してきた。
タンパク質生成モデルは、タンパク質の埋め込み、新しいタンパク質の生成、第三次構造の予測に利用されている。
本章では,タンパク質生成モデルの利用の概要,1)新規人工タンパク質の設計のための言語モデル,2)非トランスフォーマーアーキテクチャを用いた研究,3)有向進化アプローチへの応用について概説する。
論文 参考訳(メタデータ) (2023-05-03T07:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。