論文の概要: Linguistic Laws Meet Protein Sequences: A Comparative Analysis of Subword Tokenization Methods
- arxiv url: http://arxiv.org/abs/2411.17669v1
- Date: Tue, 26 Nov 2024 18:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:34:23.424868
- Title: Linguistic Laws Meet Protein Sequences: A Comparative Analysis of Subword Tokenization Methods
- Title(参考訳): タンパク質配列と言語法--サブワードトークン化法の比較分析
- Authors: Burak Suyunu, Enes Taylan, Arzucan Özgür,
- Abstract要約: トークン化は、機械学習モデルのためのタンパク質配列を処理するための重要なステップである。
本研究は、Byte-Pairという3つの顕著なトークン化アプローチを評価する。
Piece、Word、SentencePieceは、さまざまな語彙サイズに対応している。
- 参考スコア(独自算出の注目度): 3.4196611972116786
- License:
- Abstract: Tokenization is a crucial step in processing protein sequences for machine learning models, as proteins are complex sequences of amino acids that require meaningful segmentation to capture their functional and structural properties. However, existing subword tokenization methods, developed primarily for human language, may be inadequate for protein sequences, which have unique patterns and constraints. This study evaluates three prominent tokenization approaches, Byte-Pair Encoding (BPE), WordPiece, and SentencePiece, across varying vocabulary sizes (400-6400), analyzing their effectiveness in protein sequence representation, domain boundary preservation, and adherence to established linguistic laws. Our comprehensive analysis reveals distinct behavioral patterns among these tokenizers, with vocabulary size significantly influencing their performance. BPE demonstrates better contextual specialization and marginally better domain boundary preservation at smaller vocabularies, while SentencePiece achieves better encoding efficiency, leading to lower fertility scores. WordPiece offers a balanced compromise between these characteristics. However, all tokenizers show limitations in maintaining protein domain integrity, particularly as vocabulary size increases. Analysis of linguistic law adherence shows partial compliance with Zipf's and Brevity laws but notable deviations from Menzerath's law, suggesting that protein sequences may follow distinct organizational principles from natural languages. These findings highlight the limitations of applying traditional NLP tokenization methods to protein sequences and emphasize the need for developing specialized tokenization strategies that better account for the unique characteristics of proteins.
- Abstract(参考訳): タンパク質は、機能的および構造的特性を捉えるために意味のあるセグメンテーションを必要とするアミノ酸の複雑な配列である。
しかしながら、人間の言語用に開発された既存のサブワードのトークン化手法は、ユニークなパターンと制約を持つタンパク質配列には不十分である可能性がある。
本研究では,BPE(Byte-Pair Encoding),WordPiece(WordPiece),SentencePiece(SentencePiece)の3つの重要なトークン化手法について,様々な語彙サイズ (400-6400) で評価し,タンパク質配列表現,ドメイン境界保存,確立された言語法則の遵守性について検討した。
包括的分析により,これらのトークン化剤の挙動パターンが明らかになり,語彙サイズが性能に大きく影響を及ぼすことがわかった。
BPEは、より文脈的な特殊化とより小さな語彙でのドメイン境界保存を極端に改善し、SentencePieceはより優れたエンコーディング効率を達成し、より低い肥育度スコアをもたらす。
WordPieceはこれらの特徴のバランスのとれた妥協を提供する。
しかしながら、全てのトークン化剤は、特に語彙サイズが増加するにつれて、タンパク質ドメインの整合性を維持する限界を示す。
言語法順守の分析は、Zipf法とBrevity法に部分的に準拠するが、メンゼロスの法則からの顕著な逸脱を示し、タンパク質配列は自然言語とは異なる組織原理に従う可能性があることを示唆している。
これらの知見は、タンパク質配列に従来のNLPトークン化法を適用することの限界を強調し、タンパク質の特異な特徴をよりよく考慮する特別なトークン化戦略を開発する必要性を強調している。
関連論文リスト
- Cross-domain Chinese Sentence Pattern Parsing [67.1381983012038]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。
既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。
本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T05:30:48Z) - How Important Is Tokenization in French Medical Masked Language Models? [7.866517623371908]
自然言語処理(NLP)分野において,サブワードトークン化が主流となっている。
本稿では,フランス生物医学領域におけるサブワードトークン化の複雑さを,多種多様なNLPタスクにまたがって探究する。
従来のトークン化手法に形態素に富んだ単語セグメンテーションを統合するオリジナルトークン化戦略を導入する。
論文 参考訳(メタデータ) (2024-02-22T23:11:08Z) - FoldToken: Learning Protein Language via Vector Quantization and Beyond [56.19308144551836]
タンパク質配列構造を離散シンボルとして表現するために textbfFoldTokenizer を導入する。
学習したシンボルを textbfFoldToken と呼び、FoldToken の配列が新しいタンパク質言語として機能する。
論文 参考訳(メタデータ) (2024-02-04T12:18:51Z) - Endowing Protein Language Models with Structural Knowledge [5.587293092389789]
本稿では,タンパク質構造データを統合することにより,タンパク質言語モデルを強化する新しいフレームワークを提案する。
PST(Protein Structure Transformer)と呼ばれる精製モデルは、小さなタンパク質構造データベース上でさらに事前訓練されている。
PSTは、タンパク質配列の最先端基盤モデルであるESM-2を一貫して上回り、タンパク質機能予測の新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-01-26T12:47:54Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering
the Language of Protein [76.18058946124111]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - InstructProtein: Aligning Human and Protein Language via Knowledge
Instruction [38.46621806898224]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらしたが、タンパク質のような生物学的配列の理解に乏しい。
InstructProteinは、ヒト言語とタンパク質言語の両方で双方向に生成する機能を持つ。
InstructProteinは、テキストベースのタンパク質機能予測とシーケンス設計に向けた先駆的なステップとして機能する。
論文 参考訳(メタデータ) (2023-10-05T02:45:39Z) - Improving Generalization in Language Model-Based Text-to-SQL Semantic
Parsing: Two Simple Semantic Boundary-Based Techniques [14.634536051274468]
LMトークン化器が生成するトークンの意味的境界を保存するためのトークン前処理手法を提案する。
シーケンスレベルでは、入力と出力の間に整列したコンポーネントの境界を示すために特別なトークンを使うことを提案する。
2つのテキストからセマンティック・パーシング・データセットによる実験結果から,トークン前処理は単純ではあるが,両タイプの一般化におけるLM性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-05-27T06:09:03Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。