論文の概要: Evaluation of Coding Schemes for Transformer-based Gene Sequence Modeling
- arxiv url: http://arxiv.org/abs/2507.15087v1
- Date: Sun, 20 Jul 2025 19:02:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.190423
- Title: Evaluation of Coding Schemes for Transformer-based Gene Sequence Modeling
- Title(参考訳): トランスフォーマーに基づく遺伝子配列モデリングのための符号化方式の評価
- Authors: Chenlei Gong, Yuanhe Tian, Lei Mao, Yan Song,
- Abstract要約: k-merセグメンテーションをk=1,3,4,5,6,4,096-token BPEボキャブラリ,および3つの位置符号化法であるsinusoidal,AliBi,RoPEと比較した。
BPEは、頻繁なモチーフを可変長のトークンに圧縮することで、タスク間でより高い、より安定したパフォーマンスを提供する。
本研究は,DNAトランスフォーマーモデルにおけるトークン化と位置符号化を設計するための実用的なガイダンスを提供する。
- 参考スコア(独自算出の注目度): 16.581099175248056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently, many studies view DNA sequences as a special type of language and utilize Transformers to model them. These studies use fixed-length k-mer segmentation and BPE subword tokenization but lack a systematic evaluation to determine which is superior. We compare k-mer segmentation with k=1,3,4,5,6, a 4,096-token BPE vocabulary, and three positional encoding methods-sinusoidal, AliBi, and RoPE. Each configuration is trained from scratch in 3, 6, 12, and 24-layer Transformer encoders and evaluated on GUE benchmark dataset. In general, BPE delivers higher and more stable performance across tasks by compressing frequent motifs into variable-length tokens, reducing sequence length, and improving model generalization. RoPE excels at capturing periodic motifs and extrapolating to long sequences, while AliBi also performs well on tasks driven by local dependencies. In terms of depth, we observe significant gains when increasing layers from 3 to 12, with only marginal improvements or slight overfitting at 24 layers. This study provides practical guidance for designing tokenization and positional encoding in DNA Transformer models.
- Abstract(参考訳): 現在、多くの研究がDNA配列を特別なタイプの言語とみなし、トランスフォーマーを使ってそれらをモデル化している。
これらの研究は、固定長k-merセグメンテーションとBPEサブワードトークン化を用いるが、どちらが優れているかを決定するための体系的な評価を欠いている。
k-merセグメンテーションをk=1,3,4,5,6,4,096-token BPEボキャブラリ,および3つの位置符号化法であるsinusoidal,AliBi,RoPEと比較した。
各構成は3、6、12、24層トランスフォーマーエンコーダでスクラッチからトレーニングされ、GUEベンチマークデータセットで評価される。
一般に、BPEは、頻繁なモチーフを可変長のトークンに圧縮し、シーケンス長を減らし、モデル一般化を改善することで、タスク間でより高い、より安定したパフォーマンスを提供する。
RoPEは周期的なモチーフのキャプチャと長いシーケンスの補間に優れており、AliBiはローカル依存関係によって駆動されるタスクでもうまく機能する。
深さの面では,各層を3層から12層に増やすと顕著な増加がみられ,限界的な改善や24層での若干のオーバーフィッティングが見られた。
本研究は,DNAトランスフォーマーモデルにおけるトークン化と位置符号化を設計するための実用的なガイダンスを提供する。
関連論文リスト
- PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。
家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-05-22T08:36:09Z) - Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文 参考訳(メタデータ) (2025-03-11T02:33:33Z) - Toward Relative Positional Encoding in Spiking Transformers [52.62008099390541]
スパイキングニューラルネットワーク(スパイキングニューラルネット、英: Spiking Neural Network、SNN)は、脳内のニューロンが離散スパイクを通してどのように通信するかを模倣するバイオインスパイアネットワークである。
スパイキングトランスフォーマーにおける相対的位置符号化(RPE)を近似するためのいくつかの戦略を導入する。
論文 参考訳(メタデータ) (2025-01-28T06:42:37Z) - Exploring the Role of Token in Transformer-based Time Series Forecasting [10.081240480138487]
Transformer-based method is a mainstream approach for solve time series forecasting (TSF)
モデル構造を最適化することに集中しており、予測のためのトークンの役割に注意を払う研究はほとんどない。
勾配は、主に正のトークンと呼ばれる予測級数に寄与するトークンに依存する。
T-PEとV-PEを利用するために,トランスフォーマーベースのデュアルブランチフレームワークであるT2B-PEを提案する。
論文 参考訳(メタデータ) (2024-04-16T07:21:39Z) - Understanding the Natural Language of DNA using Encoder-Decoder Foundation Models with Byte-level Precision [26.107996342704915]
本稿では,Ensemble Nucleotide Byte-level-Decoder(ENBED)基盤モデルを提案する。
我々はMasked Language Modelingを用いて、参照ゲノム配列を用いて基礎モデルを事前訓練し、以下の下流タスクに適用する。
これらの課題のそれぞれにおいて、既存の最先端の成果と比較して顕著な改善が示される。
論文 参考訳(メタデータ) (2023-11-04T06:00:56Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - GTrans: Grouping and Fusing Transformer Layers for Neural Machine
Translation [107.2752114891855]
トランスフォーマー構造は、エンコーダとデコーダのネットワーク層によって積み重ねられ、ニューラルマシン翻訳において大きな発展を遂げる。
本稿では,エンコーダとデコーダの多層表現を異なるグループに柔軟に分割し,これらの特徴を融合して目的語を生成するグループトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-07-29T04:10:36Z) - Pyramid-BERT: Reducing Complexity via Successive Core-set based Token
Selection [23.39962989492527]
BERTのようなトランスフォーマーベースの言語モデルは、様々なNLPタスクで最先端を達成しているが、計算的に禁止されている。
本稿では,従来の使用法を,理論的な結果によって正当化されたemコアセットベースのトークン選択法で置き換えるピラミッド-BERTを提案する。
コアセットベースのトークン選択技術により、高価な事前トレーニングを回避でき、空間効率の良い微調整が可能となり、長いシーケンス長を扱うのに適している。
論文 参考訳(メタデータ) (2022-03-27T19:52:01Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。