論文の概要: Biological Sequence with Language Model Prompting: A Survey
- arxiv url: http://arxiv.org/abs/2503.04135v1
- Date: Thu, 06 Mar 2025 06:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:23.352510
- Title: Biological Sequence with Language Model Prompting: A Survey
- Title(参考訳): 言語モデルプロンプティングによる生物学的シーケンス:サーベイ
- Authors: Jiyue Jiang, Zikang Wang, Yuheng Shan, Heyan Chai, Jiayi Li, Zixian Ma, Xinrui Zhang, Yu Li,
- Abstract要約: 大きな言語モデル(LLM)は、さまざまなドメインにまたがる課題に対処するための強力なツールとして登場した。
本稿では, LLMを用いたプロンプトベース手法の生物学的配列への応用を系統的に検討する。
- 参考スコア(独自算出の注目度): 14.270959261105968
- License:
- Abstract: Large Language models (LLMs) have emerged as powerful tools for addressing challenges across diverse domains. Notably, recent studies have demonstrated that large language models significantly enhance the efficiency of biomolecular analysis and synthesis, attracting widespread attention from academics and medicine. In this paper, we systematically investigate the application of prompt-based methods with LLMs to biological sequences, including DNA, RNA, proteins, and drug discovery tasks. Specifically, we focus on how prompt engineering enables LLMs to tackle domain-specific problems, such as promoter sequence prediction, protein structure modeling, and drug-target binding affinity prediction, often with limited labeled data. Furthermore, our discussion highlights the transformative potential of prompting in bioinformatics while addressing key challenges such as data scarcity, multimodal fusion, and computational resource limitations. Our aim is for this paper to function both as a foundational primer for newcomers and a catalyst for continued innovation within this dynamic field of study.
- Abstract(参考訳): 大きな言語モデル(LLM)は、さまざまなドメインにまたがる課題に対処するための強力なツールとして登場した。
特に最近の研究では、大きな言語モデルが生体分子の解析と合成の効率を著しく向上させ、学術や医学から広く注目を集めていることが示されている。
本稿では,DNA,RNA,タンパク質,薬物発見タスクなど生物配列へのLLMを用いたプロンプト法の適用を系統的に検討する。
具体的には,プロモーター配列予測,タンパク質構造モデリング,薬物-標的結合親和性予測など,LLMがドメイン固有の問題に,しばしばラベル付きデータで迅速に対処できることに注目した。
さらに,データ不足,マルチモーダル融合,計算資源制限といった重要な課題に対処しつつ,バイオインフォマティクスの転換の可能性を強調した。
本研究の目的は,新参者の基礎プライマーと,このダイナミックな研究分野における継続的なイノベーションの触媒として機能することである。
関連論文リスト
- Knowledge Hierarchy Guided Biological-Medical Dataset Distillation for Domain LLM Training [10.701353329227722]
学術文献から高品質なテキストトレーニングデータの蒸留を自動化する枠組みを提案する。
われわれのアプローチは、バイオメディカル領域とより密接に一致した質問を自己評価し、生成する。
本手法は,生命科学領域の事前学習モデルと比較して,質問応答タスクを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-25T07:20:44Z) - Large Language Models for Bioinformatics [58.892165394487414]
本調査はバイオインフォマティクス特化言語モデル(BioLM)の進化,分類,特徴の識別に焦点をあてる。
疾患診断, 薬物発見, ワクチン開発などの重要な分野において, バイオフィルムの幅広い応用について検討する。
データプライバシやセキュリティ上の問題,解釈可能性の問題,トレーニングデータやモデル出力のバイアス,ドメイン適応複雑性など,BioLMに固有の重要な課題や制限を特定します。
論文 参考訳(メタデータ) (2025-01-10T01:43:05Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - COMET: Benchmark for Comprehensive Biological Multi-omics Evaluation Tasks and Language Models [56.81513758682858]
COMETは、シングルオミクス、クロスオミクス、マルチオミクスタスクのモデルを評価することを目的としている。
まず、我々は、DNA、RNA、タンパク質の主要な構造的および機能的側面をカバーする、下流タスクとデータセットの多様なコレクションをキュレートし、開発する。
そこで我々は,DNA,RNA,タンパク質の既存の基礎言語モデルと,新たに提案されたマルチオミクス法を評価する。
論文 参考訳(メタデータ) (2024-12-13T18:42:00Z) - Genomic Language Models: Opportunities and Challenges [0.2912705470788796]
ゲノム言語モデル(gLM)は、ゲノムの理解を大幅に前進させる可能性がある。
本稿では,機能制約予測,シーケンス設計,伝達学習など,gLMのキーとなる応用について紹介する。
本稿では,gLMの開発と評価について論じる。
論文 参考訳(メタデータ) (2024-07-16T06:57:35Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - Machine Learning in Nano-Scale Biomedical Engineering [77.75587007080894]
ナノスケールバイオメディカルエンジニアリングにおける機械学習の利用に関する既存の研究について概説する。
ML問題として定式化できる主な課題は、3つの主要なカテゴリに分類される。
提示された方法論のそれぞれについて、その原則、応用、制限に特に重点を置いている。
論文 参考訳(メタデータ) (2020-08-05T15:45:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。