論文の概要: Exploring Adversarial Robustness in Classification tasks using DNA Language Models
- arxiv url: http://arxiv.org/abs/2409.19788v2
- Date: Mon, 03 Mar 2025 02:38:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:10:19.463027
- Title: Exploring Adversarial Robustness in Classification tasks using DNA Language Models
- Title(参考訳): DNA言語モデルを用いた分類作業における逆ロバスト性の探索
- Authors: Hyunwoo Yoo, Haebin Shin, Kaidi Xu, Gail Rosen,
- Abstract要約: DNA言語モデルは、本質的にシークエンシングエラー、突然変異、実験室が引き起こしたノイズを含むDNA配列で動作する。
この問題の重要性にもかかわらず、DNA言語モデルの堅牢性はほとんど未解明のままである。
本研究は、DNA言語モデルの限界を強調し、バイオインフォマティクスにおける堅牢性の必要性を強調する。
- 参考スコア(独自算出の注目度): 11.33721814923557
- License:
- Abstract: DNA Language Models, such as GROVER, DNABERT2 and the Nucleotide Transformer, operate on DNA sequences that inherently contain sequencing errors, mutations, and laboratory-induced noise, which may significantly impact model performance. Despite the importance of this issue, the robustness of DNA language models remains largely underexplored. In this paper, we comprehensivly investigate their robustness in DNA classification by applying various adversarial attack strategies: the character (nucleotide substitutions), word (codon modifications), and sentence levels (back-translation-based transformations) to systematically analyze model vulnerabilities. Our results demonstrate that DNA language models are highly susceptible to adversarial attacks, leading to significant performance degradation. Furthermore, we explore adversarial training method as a defense mechanism, which enhances both robustness and classification accuracy. This study highlights the limitations of DNA language models and underscores the necessity of robustness in bioinformatics.
- Abstract(参考訳): GROVER、DNABERT2、ヌクレオチドトランスフォーマーなどのDNA言語モデルは、本質的にシークエンシングエラー、突然変異、実験室誘発ノイズを含むDNA配列で動作し、モデルの性能に大きな影響を与える可能性がある。
この問題の重要性にもかかわらず、DNA言語モデルの堅牢性はほとんど未解明のままである。
本稿では, モデル脆弱性を体系的に解析するために, キャラクタ(ヌクレオチド置換), 単語(コドン修飾), 文レベル(逆翻訳に基づく変換)など, 様々な敵攻撃戦略を適用することにより, そのDNA分類における堅牢性について包括的に検討する。
以上の結果から,DNA言語モデルが敵の攻撃に強い影響を受け,性能が著しく低下することが示唆された。
さらに,ロバスト性と分類精度を両立させる防衛機構として,敵の訓練方法を検討する。
本研究は、DNA言語モデルの限界を強調し、バイオインフォマティクスにおける堅牢性の必要性を強調する。
関連論文リスト
- HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model [70.69095062674944]
ハイブリッドトランスフォーマー-マンバ2アーキテクチャを組み込んだデコーダのみのDNA言語モデルであるHybriDNAを提案する。
このハイブリッド設計により、HybriDNAはDNA配列を最大131kbまで効率よく単一のヌクレオチド分解能で処理できる。
HybriDNAは、BEND、GUE、LRBベンチマークから算出された33のDNA理解データセットにまたがる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-15T14:23:43Z) - Model Decides How to Tokenize: Adaptive DNA Sequence Tokenization with MxDNA [44.630039477717624]
MxDNAは、モデルが段階的に有効なDNAトークン化戦略を自律的に学習する新しいフレームワークである。
我々は、MxDNAが従来の方法とは異なるユニークなトークン化戦略を学習し、自己教師付き事前学習中にトークンレベルでゲノム機能をキャプチャすることを示す。
論文 参考訳(メタデータ) (2024-12-18T10:55:43Z) - Dy-mer: An Explainable DNA Sequence Representation Scheme using Sparse Recovery [6.733319363951907]
textbfDy-merはスパースリカバリに基づく説明可能で堅牢な表現スキームである。
DNAプロモーターの分類における最先端のパフォーマンスを達成し、textbf13%の精度向上をもたらす。
論文 参考訳(メタデータ) (2024-07-06T15:08:31Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - DNABERT-S: Pioneering Species Differentiation with Species-Aware DNA Embeddings [7.822348354050447]
DNABERT-S(DNABERT-S)は,異なる種のDNA配列を自然にクラスターし,分離するために,種認識の埋め込みを開発するゲノムモデルである。
23の多様なデータセットの創発的な結果は、特に現実的なラベルスカースシナリオにおいて、DNABERT-Sの有効性を示している。
論文 参考訳(メタデータ) (2024-02-13T20:21:29Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - Embed-Search-Align: DNA Sequence Alignment using Transformer Models [2.48439258515764]
我々はTransformerモデルのシーケンスアライメントタスクを"Embed-Search-Align"タスクとしてフレーミングすることでギャップを埋める。
新規なレファレンスフリーDNA埋め込みモデルは、共有ベクトル空間に投影される読み取りおよび参照フラグメントの埋め込みを生成する。
DNA-ESAは、BowtieやBWA-Memといった従来の手法に匹敵する、ヒトゲノム(3gb)に250長の読み書きを合わせると99%正確である。
論文 参考訳(メタデータ) (2023-09-20T06:30:39Z) - DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence
Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。
古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-11T06:30:43Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Is BERT a Cross-Disciplinary Knowledge Learner? A Surprising Finding of
Pre-trained Models' Transferability [74.11825654535895]
BERTなどのテキストデータに予め訓練されたモデルのパワーを、一般的なトークンシーケンス分類アプリケーションに転送できるかどうかを検討します。
テキスト以外のデータでも、テキストに事前学習されたモデルはランダムなモデルよりも高速に収束する。
論文 参考訳(メタデータ) (2021-03-12T09:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。