論文の概要: Adversarial Examples for DNA Classification
- arxiv url: http://arxiv.org/abs/2409.19788v1
- Date: Sun, 29 Sep 2024 21:20:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 17:39:51.760322
- Title: Adversarial Examples for DNA Classification
- Title(参考訳): DNA分類の逆例
- Authors: Hyunwoo Yoo,
- Abstract要約: DNAシークエンス分類のためのテキスト分類によく使われる攻撃アルゴリズムを適用した。
文字,単語,文レベルでのDNA配列分類に対する種々の攻撃方法の影響を評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained language models such as DNABERT2 and Nucleotide Transformer, which are trained on DNA sequences, have shown promising performance in DNA sequence classification tasks. The classification ability of these models stems from language models trained on vast amounts of DNA sequence samples, followed by fine-tuning with relatively smaller classification datasets. However, these text-based systems are not robust enough and can be vulnerable to adversarial examples. While adversarial attacks have been widely studied in text classification, there is limited research in DNA sequence classification. In this paper, we adapt commonly used attack algorithms in text classification for DNA sequence classification. We evaluated the impact of various attack methods on DNA sequence classification at the character, word, and sentence levels. Our findings indicate that actual DNA language model sequence classifiers are vulnerable to these attacks.
- Abstract(参考訳): DNA配列に基づいて訓練されたDNABERT2やヌクレオチドトランスフォーマーなどの事前訓練された言語モデルは、DNA配列分類タスクにおいて有望な性能を示した。
これらのモデルの分類能力は、大量のDNA配列サンプルに基づいて訓練された言語モデルと、比較的小さな分類データセットによる微調整に起因している。
しかし、これらのテキストベースのシステムは十分に堅牢ではなく、敵の例に対して脆弱である。
逆行攻撃はテキスト分類において広く研究されているが、DNA配列分類では限定的な研究がなされている。
本稿では,DNAシークエンス分類のためのテキスト分類において,一般的な攻撃アルゴリズムを適用した。
様々な攻撃方法が文字・単語・文レベルでのDNA配列分類に与える影響について検討した。
以上の結果から,実際のDNA言語モデル配列分類器はこれらの攻撃に対して脆弱であることが示唆された。
関連論文リスト
- Dy-mer: An Explainable DNA Sequence Representation Scheme using Sparse Recovery [6.733319363951907]
textbfDy-merはスパースリカバリに基づく説明可能で堅牢な表現スキームである。
DNAプロモーターの分類における最先端のパフォーマンスを達成し、textbf13%の精度向上をもたらす。
論文 参考訳(メタデータ) (2024-07-06T15:08:31Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - DNABERT-S: Pioneering Species Differentiation with Species-Aware DNA Embeddings [7.822348354050447]
DNABERT-S(DNABERT-S)は,異なる種のDNA配列を自然にクラスターし,分離するために,種認識の埋め込みを開発するゲノムモデルである。
23の多様なデータセットの創発的な結果は、特に現実的なラベルスカースシナリオにおいて、DNABERT-Sの有効性を示している。
論文 参考訳(メタデータ) (2024-02-13T20:21:29Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - Prompt-based Grouping Transformer for Nucleus Detection and
Classification [70.55961378096116]
核の検出と分類は、疾患の診断に有効な情報を生み出す。
既存のほとんどの手法は、核を独立に分類するか、核とそのグループの特徴の間の意味的類似性を十分に利用しない。
グループ変換器をベースとした新しいエンドツーエンドの原子核検出・分類フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-22T04:50:48Z) - Embed-Search-Align: DNA Sequence Alignment using Transformer Models [2.48439258515764]
我々はTransformerモデルのシーケンスアライメントタスクを"Embed-Search-Align"タスクとしてフレーミングすることでギャップを埋める。
新規なレファレンスフリーDNA埋め込みモデルは、共有ベクトル空間に投影される読み取りおよび参照フラグメントの埋め込みを生成する。
DNA-ESAは、BowtieやBWA-Memといった従来の手法に匹敵する、ヒトゲノム(3gb)に250長の読み書きを合わせると99%正確である。
論文 参考訳(メタデータ) (2023-09-20T06:30:39Z) - DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence
Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。
古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-11T06:30:43Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z) - Is BERT a Cross-Disciplinary Knowledge Learner? A Surprising Finding of
Pre-trained Models' Transferability [74.11825654535895]
BERTなどのテキストデータに予め訓練されたモデルのパワーを、一般的なトークンシーケンス分類アプリケーションに転送できるかどうかを検討します。
テキスト以外のデータでも、テキストに事前学習されたモデルはランダムなモデルよりも高速に収束する。
論文 参考訳(メタデータ) (2021-03-12T09:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。