論文の概要: From Sentences to Sequences: Rethinking Languages in Biological System
- arxiv url: http://arxiv.org/abs/2507.00953v1
- Date: Tue, 01 Jul 2025 16:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.742287
- Title: From Sentences to Sequences: Rethinking Languages in Biological System
- Title(参考訳): 文からシーケンスへ:生物学的システムにおける言語の再考
- Authors: Ke Liu, Shuanke Shen, Hao Chen,
- Abstract要約: 生物系における言語の概念を再考し,NLPの成功を生物学的領域に効果的に翻訳する方法をよりよく理解する。
生体分子の3次元構造を文の意味的内容として扱うことにより,構造評価の重要性を強調した。
- 参考スコア(独自算出の注目度): 6.304152224988003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paradigm of large language models in natural language processing (NLP) has also shown promise in modeling biological languages, including proteins, RNA, and DNA. Both the auto-regressive generation paradigm and evaluation metrics have been transferred from NLP to biological sequence modeling. However, the intrinsic structural correlations in natural and biological languages differ fundamentally. Therefore, we revisit the notion of language in biological systems to better understand how NLP successes can be effectively translated to biological domains. By treating the 3D structure of biomolecules as the semantic content of a sentence and accounting for the strong correlations between residues or bases, we highlight the importance of structural evaluation and demonstrate the applicability of the auto-regressive paradigm in biological language modeling. Code can be found at \href{https://github.com/zjuKeLiu/RiFold}{github.com/zjuKeLiu/RiFold}
- Abstract(参考訳): 自然言語処理(NLP)における大きな言語モデルのパラダイムは、タンパク質、RNA、DNAを含む生物学的言語をモデル化する際の約束でもある。
自己回帰生成パラダイムと評価指標はいずれもNLPから生物配列モデリングに移行している。
しかし、自然言語と生物学的言語の内在的な構造的相関は根本的に異なる。
そこで,生物系における言語概念を再考し,NLPの成功を生物学的領域に効果的に翻訳する方法をよりよく理解する。
生体分子の3次元構造を文の意味的内容として扱い,残基間の強い相関を考慮し,構造評価の重要性を強調し,生物言語モデリングにおける自己回帰的パラダイムの適用性を実証する。
コードは \href{https://github.com/zjuKeLiu/RiFold}{github.com/zjuKeLiu/RiFold}
関連論文リスト
- Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [55.98854157265578]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
本稿では、RNAを逆転写し、アミノ酸をヌクレオチド配列に変換することで、マルチオミクスデータを統合する統一パイプラインを提案する。
Life-Codeは3つのオミクスにまたがる様々なタスクの最先端の結果を達成し、マルチオミクス分析と解釈の進歩の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - Can linguists better understand DNA? [0.0]
本研究では,自然言語と遺伝子配列/言語間の能力伝達の存在を論じる。
DNA-ペア分類(DNA配列類似性)とDNA-タンパク質-ペア分類(遺伝子コーディング決定)の2つの類似タスクを構築した。
これらのタスクは、自然言語から遺伝子配列への能力の伝達可能性を検証するために設計された。
論文 参考訳(メタデータ) (2024-12-10T17:06:33Z) - Morphological Typology in BPE Subword Productivity and Language Modeling [0.0]
合成および解析的形態構造を持つ言語に着目し,トークン化時の生産性について検討する。
合成特徴を持つ言語は、BPEトークン化により、より高いサブワード規則性と生産性を示す。
論文 参考訳(メタデータ) (2024-10-31T06:13:29Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - ImmunoLingo: Linguistics-based formalization of the antibody language [0.5412332666265471]
自然言語と生物学的配列の明瞭な平行関係は、深層言語モデル(LM)の適用の急激な増加につながった。
生物学的配列言語の厳密な言語形式化の欠如は、主にLMのドメイン非特異的な応用に繋がった。
言語形式化は、言語的にインフォームドされ、したがって、LMアプリケーションのためのドメイン適応コンポーネントを確立する。
論文 参考訳(メタデータ) (2022-09-26T12:33:14Z) - Learning Music Helps You Read: Using Transfer to Study Linguistic
Structure in Language Models [27.91397366776451]
遅延構造(MIDI音楽またはJavaコード)上でのLSTMのトレーニングは、自然言語でのテストパフォーマンスを改善する。
語彙重なりに制御される自然言語間の移動実験により,試験言語におけるゼロショット性能は,訓練言語とタイプ的類似性に強く相関していることが示された。
論文 参考訳(メタデータ) (2020-04-30T06:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。