論文の概要: AnnoDPO: Protein Functional Annotation Learning with Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2506.07035v1
- Date: Sun, 08 Jun 2025 07:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.64141
- Title: AnnoDPO: Protein Functional Annotation Learning with Direct Preference Optimization
- Title(参考訳): AnnoDPO: 直接選好最適化によるタンパク質機能アノテーション学習
- Authors: Zixuan Jiang, Renjing Xu,
- Abstract要約: タンパク質機能の解読は、タンパク質表現学習の基本的な課題である。
本稿では,タンパク質機能予測のための新しいマルチモーダルフレームワークAnnoDPOを提案する。
提案手法では, アノテーション不足と不均衡という2つの課題を, 嗜好に整合した学習目標を通じて解決する。
- 参考スコア(独自算出の注目度): 1.8651695783984825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deciphering protein function remains a fundamental challenge in protein representation learning. The task presents significant difficulties for protein language models (PLMs) due to the sheer volume of functional annotation categories and the highly imbalanced distribution of annotated instances across biological ontologies. Inspired by the remarkable success of reinforcement learning from human feedback (RLHF) in large language model (LLM) alignment, we propose AnnoDPO, a novel multi-modal framework for protein function prediction that leverages Direct Preference Optimization (DPO) to enhance annotation learning. Our methodology addresses the dual challenges of annotation scarcity and category imbalance through preference-aligned training objectives, establishing a new paradigm for biological knowledge integration in protein representation learning.
- Abstract(参考訳): タンパク質機能の解読は、タンパク質表現学習の基本的な課題である。
この課題は、機能的アノテーションカテゴリーの量と、生物学的オントロジー全体にわたるアノテーションインスタンスの高度に不均衡な分布により、タンパク質言語モデル(PLM)に重大な困難をもたらす。
大規模言語モデル(LLM)アライメントにおける人間フィードバックからの強化学習(RLHF)の顕著な成功に触発されて,アノテーション学習の強化にDPO(Direct Preference Optimization)を活用した,タンパク質機能予測のための新しいマルチモーダルフレームワークAnnoDPOを提案する。
本手法は, タンパク質表現学習における生物学的知識統合のための新たなパラダイムを構築し, アノテーション不足とカテゴリー不均衡の2つの課題に対処する。
関連論文リスト
- ProtCLIP: Function-Informed Protein Multi-Modal Learning [18.61302416993122]
ProtCLIPは,機能認識タンパク質の埋め込みを表現した多モード基盤モデルである。
当社のProtCLIPは,5つのクロスモーダル変換ベンチマークにおいて,平均75%の大幅な改善を実現している。
実験により,タンパク質多量性基盤モデルとしてのProtCLIPの異常なポテンシャルが検証された。
論文 参考訳(メタデータ) (2024-12-28T04:23:47Z) - Boosting Protein Language Models with Negative Sample Mining [20.721167029530168]
本稿では,タンパク質表現学習分野における大規模言語モデル向上のための先駆的手法を提案する。
私たちの主な貢献は、共進化の知識への過度な信頼を関連付けるための洗練プロセスにあります。
本手法は,この新たなアプローチを活かして,注目スコア空間内でのトランスフォーマーベースモデルのトレーニングを支援する。
論文 参考訳(メタデータ) (2024-05-28T07:24:20Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Linguistically inspired roadmap for building biologically reliable
protein language models [0.5412332666265471]
言語学から引き出されたガイダンスは、より解釈可能なタンパク質のLMを構築するのに役立つと論じる。
学習データ,トークン化,トークン埋め込み,シーケンス埋め込み,モデル解釈に関する,タンパク質 LM パイプライン選択のための言語学的ロードマップを提供する。
論文 参考訳(メタデータ) (2022-07-03T08:42:44Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。