論文の概要: Protein as a Second Language for LLMs
- arxiv url: http://arxiv.org/abs/2510.11188v1
- Date: Mon, 13 Oct 2025 09:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.292883
- Title: Protein as a Second Language for LLMs
- Title(参考訳): LLMの第二言語としてのタンパク質
- Authors: Xinhui Chen, Zuchao Li, Mengqi Gao, Yufeng Zhang, Chak Tou Leong, Haoyang Li, Jiaqi Chen,
- Abstract要約: 『Protein-as-Second-Language』の枠組みは、新しいシンボリック言語における文としてアミノ酸配列を再構成する。
属性予測,記述的理解,拡張推論にまたがる79,926個のタンパク質-QAインスタンスのバイリンガルコーパスをキュレートする。
提案手法は,オープンソース LLM と GPT-4 間で一貫した利得を提供し,最大 17.2% のROUGE-L 改善を実現している。
- 参考スコア(独自算出の注目度): 50.34983283157322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deciphering the function of unseen protein sequences is a fundamental challenge with broad scientific impact, yet most existing methods depend on task-specific adapters or large-scale supervised fine-tuning. We introduce the "Protein-as-Second-Language" framework, which reformulates amino-acid sequences as sentences in a novel symbolic language that large language models can interpret through contextual exemplars. Our approach adaptively constructs sequence-question-answer triples that reveal functional cues in a zero-shot setting, without any further training. To support this process, we curate a bilingual corpus of 79,926 protein-QA instances spanning attribute prediction, descriptive understanding, and extended reasoning. Empirically, our method delivers consistent gains across diverse open-source LLMs and GPT-4, achieving up to 17.2% ROUGE-L improvement (average +7%) and even surpassing fine-tuned protein-specific language models. These results highlight that generic LLMs, when guided with protein-as-language cues, can outperform domain-specialized models, offering a scalable pathway for protein understanding in foundation models.
- Abstract(参考訳): 未確認タンパク質配列の機能を解読することは、幅広い科学的影響を持つ基本的な課題であるが、既存のほとんどの手法はタスク特異的アダプターや大規模な教師付き微調整に依存している。
本稿では,アミノ酸配列を文として変換する「Protein-as-Second-Language」フレームワークについて紹介する。
提案手法は,ゼロショット設定における関数的手がかりを明らかにするシークエクション・アンサー・トリプルを,それ以上の訓練を伴わずに適応的に構築する。
このプロセスを支援するために、属性予測、記述的理解、拡張推論にまたがる79,926個のタンパク質-QAインスタンスのバイリンガルコーパスをキュレートする。
実験的に,提案手法は様々なオープンソースLLMとGPT-4に一貫した利得をもたらし,最大17.2%のROUGE-L改善(平均+7%)を達成し,さらにタンパク質特異的言語モデルにも及んでいる。
これらの結果は、タンパク・アズ・ランゲージ・キューでガイドされるジェネリックLLMがドメイン特化モデルより優れ、基礎モデルにおけるタンパク質理解のためのスケーラブルな経路を提供することを示している。
関連論文リスト
- AnnoDPO: Protein Functional Annotation Learning with Direct Preference Optimization [1.8651695783984825]
タンパク質機能の解読は、タンパク質表現学習の基本的な課題である。
本稿では,タンパク質機能予測のための新しいマルチモーダルフレームワークAnnoDPOを提案する。
提案手法では, アノテーション不足と不均衡という2つの課題を, 嗜好に整合した学習目標を通じて解決する。
論文 参考訳(メタデータ) (2025-06-08T07:59:09Z) - A Fine-tuning Dataset and Benchmark for Large Language Models for Protein Understanding [10.652670673334486]
ProteinLMBenchは、LCMのタンパク質理解能力を評価するために、手動で検証された多重選択質問からなる最初のベンチマークデータセットである。
ProteinLMDatasetは、さらに自己教師付き事前トレーニングと教師付き微調整のために設計されたデータセットである。
インターンLM2-7BはProteinLMDatasetで事前訓練され微調整され、ProteinLMBenchでGPT-4を上回り、高い精度のスコアを得た。
論文 参考訳(メタデータ) (2024-06-08T18:11:30Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - InstructProtein: Aligning Human and Protein Language via Knowledge
Instruction [38.46621806898224]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらしたが、タンパク質のような生物学的配列の理解に乏しい。
InstructProteinは、ヒト言語とタンパク質言語の両方で双方向に生成する機能を持つ。
InstructProteinは、テキストベースのタンパク質機能予測とシーケンス設計に向けた先駆的なステップとして機能する。
論文 参考訳(メタデータ) (2023-10-05T02:45:39Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Linguistically inspired roadmap for building biologically reliable
protein language models [0.5412332666265471]
言語学から引き出されたガイダンスは、より解釈可能なタンパク質のLMを構築するのに役立つと論じる。
学習データ,トークン化,トークン埋め込み,シーケンス埋め込み,モデル解釈に関する,タンパク質 LM パイプライン選択のための言語学的ロードマップを提供する。
論文 参考訳(メタデータ) (2022-07-03T08:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。