論文の概要: Lost in Tokenization: Context as the Key to Unlocking Biomolecular Understanding in Scientific LLMs
- arxiv url: http://arxiv.org/abs/2510.23127v1
- Date: Mon, 27 Oct 2025 09:03:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.500319
- Title: Lost in Tokenization: Context as the Key to Unlocking Biomolecular Understanding in Scientific LLMs
- Title(参考訳): トークン化の喪失 : 科学的LLMにおける生体分子理解の鍵としての文脈
- Authors: Kai Zhuang, Jiawei Zhang, Yumou Liu, Hanqun Cao, Chunbin Gu, Mengdi Liu, Zhangyang Gao, Zitong Jerry Wang, Xuanhe Zhou, Pheng-Ann Heng, Lijun Wu, Conghui He, Cheng Tan,
- Abstract要約: Sci-LLMは、生物発見を加速するための有望なフロンティアとして登場した。
現在の戦略はSci-LLMの推論能力を制限する。
より効果的な戦略は、Sci-LLMに高レベルの構造化コンテキストを提供することである。
- 参考スコア(独自算出の注目度): 78.18336140706471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific Large Language Models (Sci-LLMs) have emerged as a promising frontier for accelerating biological discovery. However, these models face a fundamental challenge when processing raw biomolecular sequences: the tokenization dilemma. Whether treating sequences as a specialized language, risking the loss of functional motif information, or as a separate modality, introducing formidable alignment challenges, current strategies fundamentally limit their reasoning capacity. We challenge this sequence-centric paradigm by positing that a more effective strategy is to provide Sci-LLMs with high-level structured context derived from established bioinformatics tools, thereby bypassing the need to interpret low-level noisy sequence data directly. Through a systematic comparison of leading Sci-LLMs on biological reasoning tasks, we tested three input modes: sequence-only, context-only, and a combination of both. Our findings are striking: the context-only approach consistently and substantially outperforms all other modes. Even more revealing, the inclusion of the raw sequence alongside its high-level context consistently degrades performance, indicating that raw sequences act as informational noise, even for models with specialized tokenization schemes. These results suggest that the primary strength of existing Sci-LLMs lies not in their nascent ability to interpret biomolecular syntax from scratch, but in their profound capacity for reasoning over structured, human-readable knowledge. Therefore, we argue for reframing Sci-LLMs not as sequence decoders, but as powerful reasoning engines over expert knowledge. This work lays the foundation for a new class of hybrid scientific AI agents, repositioning the developmental focus from direct sequence interpretation towards high-level knowledge synthesis. The code is available at github.com/opendatalab-raise-dev/CoKE.
- Abstract(参考訳): 科学大規模言語モデル(Sci-LLMs)は、生物発見を加速するための有望なフロンティアとして登場した。
しかし、これらのモデルは生の生体分子配列を処理する際には、トークン化ジレンマという根本的な課題に直面している。
シーケンスを特殊言語として扱うか、機能的モチーフ情報の喪失を危険にさらすか、あるいは別のモダリティとして扱うかは、恐ろしいアライメントの課題を提起するが、現在の戦略は、彼らの推論能力を根本的に制限している。
我々は、このシーケンス中心のパラダイムに挑戦し、より効果的な戦略は、確立されたバイオインフォマティクスツールから派生した高レベルの構造化コンテキストをSci-LLMに提供し、低レベルのノイズシークエンスデータを直接解釈する必要性を回避することである。
生物学的推論タスクにおけるSci-LLMを系統的に比較することにより,3つの入力モード(シーケンスオンリー,コンテキストオンリー,両方の組み合わせ)をテストした。
文脈のみのアプローチは、他のすべてのモードよりも一貫して、実質的に優れています。
さらに明らかになったのは、ハイレベルなコンテキストと共に生のシークエンスを組み込むことは、特定のトークン化スキームを持つモデルであっても、生のシークエンスが情報ノイズとして振る舞うことを示すため、常に性能を低下させることである。
これらの結果から,既存のSci-LLMの強みは,生分子の文法をスクラッチから解釈する能力ではなく,構造化された人間の読みやすい知識を推論する能力に大きく依存していることが示唆された。
したがって、Sci-LLMはシーケンスデコーダではなく、専門家の知識よりも強力な推論エンジンであると主張する。
この研究は、直列解釈からハイレベルな知識合成への発展的焦点を再配置する、ハイブリッドな科学AIエージェントの新たなクラスの基礎を築いた。
コードはgithub.com/opendatalab-raise-dev/CoKEで入手できる。
関連論文リスト
- SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines [112.78540935201558]
我々は、自然言語と異質な科学的表現を整合させる科学的推論基盤モデルを提案する。
このモデルは、科学的なテキスト、純粋なシーケンス、シーケンスとテキストのペアにまたがる206Bのコーパスで事前訓練され、4000万の命令でSFTを介してアライメントされる。
i) テキストと科学形式間の忠実な翻訳、(ii) テキスト/知識抽出、(iii) プロパティの予測、(iv) プロパティの分類、(v) 条件なしおよび条件付きシーケンスの生成と設計。
論文 参考訳(メタデータ) (2025-09-25T17:52:06Z) - Biological Sequence with Language Model Prompting: A Survey [14.270959261105968]
大きな言語モデル(LLM)は、さまざまなドメインにまたがる課題に対処するための強力なツールとして登場した。
本稿では, LLMを用いたプロンプトベース手法の生物学的配列への応用を系統的に検討する。
論文 参考訳(メタデータ) (2025-03-06T06:28:36Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - HiPrompt: Few-Shot Biomedical Knowledge Fusion via Hierarchy-Oriented
Prompting [33.1455954220194]
HiPromptは、監督効率の良い知識融合フレームワークである。
階層指向のプロンプトを通じて、大規模言語モデルの数発の推論能力を引き出す。
収集したKG-Hi-BKFベンチマークデータセットの実験的結果は、HiPromptの有効性を示している。
論文 参考訳(メタデータ) (2023-04-12T16:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。