論文の概要: ProtRLSearch: A Multi-Round Multimodal Protein Search Agent with Large Language Models Trained via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.01464v1
- Date: Mon, 02 Mar 2026 05:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.695
- Title: ProtRLSearch: A Multi-Round Multimodal Protein Search Agent with Large Language Models Trained via Reinforcement Learning
- Title(参考訳): ProtRLSearch:強化学習による大規模言語モデルを用いたマルチラウンドマルチモーダルタンパク質探索エージェント
- Authors: Congying Liu, Taihao Li, Ming Huang, Xingyuan Wei, Peipei Liu, Yiqing Shen, Yanxu Mao, Tiehan Cui,
- Abstract要約: 多次元報酬に基づくRLを訓練した多次元タンパク質探索エージェントであるProtRLSearchを提案する。
現実的なタンパク質クエリ設定において,タンパク質配列情報とテキストベースのマルチモーダル入力を統合するモデルの有効性を評価する。
- 参考スコア(独自算出の注目度): 15.56283641648347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protein analysis tasks arising in healthcare settings often require accurate reasoning under protein sequence constraints, involving tasks such as functional interpretation of disease-related variants, protein-level analysis for clinical research, and similar scenarios. To address such tasks, search agents are introduced to search protein-related information, providing support for disease-related variant analysis and protein function reasoning in protein-centric inference. However, such search agents are mostly limited to single-round, text-only modality search, which prevents the protein sequence modality from being incorporated as a multimodal input into the search decision-making process. Meanwhile, their reliance on reinforcement learning (RL) supervision that focuses solely on the final answer results in a lack of search process constraints, making deviations in keyword selection and reasoning directions difficult to identify and correct in a timely manner. To address these limitations, we propose ProtRLSearch, a multi-round protein search agent trained with multi-dimensional reward based RL, which jointly leverages protein sequence and text as multimodal inputs during real-time search to produce high quality reports. To evaluate the ability of models to integrate protein sequence information and text-based multimodal inputs in realistic protein query settings, we construct ProtMCQs, a benchmark of 3,000 multiple choice questions (MCQs) organized into three difficulty levels. The benchmark evaluates protein query tasks that range from sequence constrained reasoning about protein function and phenotype changes to comprehensive protein reasoning that integrates multi-dimensional sequence features with signal pathways and regulatory networks.
- Abstract(参考訳): 医療環境で生じるタンパク質分析タスクは、しばしば、疾患に関連する変異の機能的解釈、臨床研究のためのタンパク質レベルの分析、その他のシナリオを含む、タンパク質配列の制約の下で正確な推論を必要とする。
このような課題に対処するために、検索エージェントがタンパク質関連情報を検索するために導入され、疾患関連変異分析とタンパク質中心推論におけるタンパク質機能推論のサポートを提供する。
しかし、このような検索エージェントは、主に単文のみのモダリティ検索に限られており、タンパク質配列のモダリティが検索決定プロセスにマルチモーダル入力として組み込まれないようにしている。
一方、最終回答のみに焦点をあてた強化学習(RL)の監督への依存は、探索過程の制約の欠如を招き、キーワード選択や推論方向のずれをタイムリーに識別し修正することが困難になる。
これらの制約に対処するため,多次元報酬に基づくRLを訓練したマルチラウンドタンパク質探索エージェントProtRLSearchを提案し,リアルタイム検索中にタンパク質配列とテキストをマルチモーダル入力として併用して高品質なレポートを生成する。
タンパク質配列情報とテキストベースのマルチモーダル入力を現実的なタンパク質クエリ設定で統合する能力を評価するため,3つの難易度に分類された3000の複数選択質問(MCQ)のベンチマークであるProtMCQを構築した。
このベンチマークは、タンパク質機能や表現型の変化に関するシーケンス制約推論から、多次元配列の特徴を信号経路や制御ネットワークと統合する包括的なタンパク質推論まで幅広いタンパク質クエリタスクを評価する。
関連論文リスト
- Driving Accurate Allergen Prediction with Protein Language Models and Generalization-Focused Evaluation [4.578214567090719]
アレルギーは通常、有害な免疫反応を引き起こすタンパク質であり、公衆衛生上の大きな課題である。
本稿では,100ビリオンパラメータxTrimoPGLMタンパク質言語モデルを利用する計算フレームワークであるApplmを紹介する。
Applmは、難易度の高い現実のシナリオによく似たタスクセットにおいて、7つの最先端メソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2025-08-14T11:30:20Z) - Protein Large Language Models: A Comprehensive Survey [71.65899614084853]
タンパク質特異的な大規模言語モデル(Protein LLMs)は、より効率的なタンパク質構造予測、機能アノテーション、設計を可能にすることで、タンパク質科学に革命をもたらしている。
この作業は、アーキテクチャ、データセットのトレーニング、評価メトリクス、さまざまなアプリケーションをカバーする、Protein LLMの最初の包括的な概要を提供する。
論文 参考訳(メタデータ) (2025-02-21T19:22:10Z) - Computational Protein Science in the Era of Large Language Models (LLMs) [54.35488233989787]
計算タンパク質科学(Computational protein science)は、タンパク質配列構造-機能パラダイムにおける知識を明らかにすること、および応用を開発することを目的としている。
最近、言語モデル (Language Models, PLM) は、前例のない言語処理と一般化能力のために、AIのマイルストーンとして登場した。
論文 参考訳(メタデータ) (2025-01-17T16:21:18Z) - OneProt: Towards Multi-Modal Protein Foundation Models [6.9092913261646345]
我々は、構造、シーケンス、テキスト、結合サイトデータを統合したタンパク質のためのマルチモーダルAIであるOneProtを紹介する。
ImageBindフレームワークを使用して、OneProtは軽量な微調整方式でタンパク質モダリティエンコーダの潜在空間を整列する。
この研究はマルチモーダルタンパク質モデルの地平線を広げ、薬物発見、生物触媒反応計画、タンパク質工学における変革的応用の道を開く。
論文 参考訳(メタデータ) (2024-11-07T16:54:54Z) - ProteinGPT: Multimodal LLM for Protein Property Prediction and Structure Understanding [22.610060675922536]
本稿では,タンパク質の多モード多言語モデルであるProteinGPTを紹介する。
タンパク質GPTは、タンパク質配列と構造エンコーダを線形射影層に統合し、正確な表現適応を保証する。
我々は,20~30個のプロパティタグと5〜10個のQAペアを付加した132,092個のタンパク質の大規模データセットを構築し,GPT-4oを用いた命令調整プロセスを最適化した。
論文 参考訳(メタデータ) (2024-08-21T06:16:22Z) - ProtT3: Protein-to-Text Generation for Text-based Protein Understanding [88.43323947543996]
言語モデル(LM)は、タンパク質のテキスト記述を理解するのに優れている。
タンパク質言語モデル(PLM)は、タンパク質データを理解し、高品質な表現に変換するが、テキストを処理するのに苦労する。
ProtT3は、テキストベースのタンパク質理解のための、タンパク質からテキストへの生成のためのフレームワークである。
論文 参考訳(メタデータ) (2024-05-21T08:06:13Z) - ProLLM: Protein Chain-of-Thoughts Enhanced LLM for Protein-Protein Interaction Prediction [54.132290875513405]
タンパク質-タンパク質相互作用(PPI)の予測は、生物学的機能や疾患を理解する上で重要である。
PPI予測に対する従来の機械学習アプローチは、主に直接的な物理的相互作用に焦点を当てていた。
PPIに適したLLMを用いた新しいフレームワークProLLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T05:32:42Z) - ProtLLM: An Interleaved Protein-Language LLM with Protein-as-Word Pre-Training [82.37346937497136]
本稿では,タンパク質中心タスクとタンパク質言語タスクの両方を対象とした多機能多言語多言語言語モデル (LLM) を提案する。
ProtLLMはユニークな動的タンパク質実装機構を備えており、複雑な入力を処理できる。
専門的なタンパク質語彙を開発することで、自然言語だけでなく、膨大な候補からタンパク質を予測できる能力をモデルに装備する。
論文 参考訳(メタデータ) (2024-02-28T01:29:55Z) - Efficiently Predicting Protein Stability Changes Upon Single-point
Mutation with Large Language Models [51.57843608615827]
タンパク質の熱安定性を正確に予測する能力は、様々なサブフィールドや生化学への応用において重要である。
タンパク質配列と構造的特徴を統合したESMによる効率的なアプローチを導入し, 単一点突然変異によるタンパク質の熱安定性変化を予測する。
論文 参考訳(メタデータ) (2023-12-07T03:25:49Z) - PEER: A Comprehensive and Multi-Task Benchmark for Protein Sequence
Understanding [17.770721291090258]
PEERは、Protein sEquence undERstandingの包括的なマルチタスクベンチマークである。
タンパク質機能予測、タンパク質局在予測、タンパク質構造予測、タンパク質-リガンド相互作用予測を含む、多様なタンパク質理解タスクのセットを提供する。
我々は,従来の特徴工学的手法,異なる配列符号化手法,および大規模事前学習されたタンパク質言語モデルなど,各タスクに対するシーケンスベース手法の評価を行った。
論文 参考訳(メタデータ) (2022-06-05T05:21:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。