Fugu-MT 論文翻訳(概要): Adversarial Examples for DNA Classification

論文の概要: Adversarial Examples for DNA Classification

arxiv url: http://arxiv.org/abs/2409.19788v1
Date: Sun, 29 Sep 2024 21:20:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 17:39:51.760322
Title: Adversarial Examples for DNA Classification
Title（参考訳）: DNA分類の逆例
Authors: Hyunwoo Yoo,
Abstract要約: DNAシークエンス分類のためのテキスト分類によく使われる攻撃アルゴリズムを適用した。文字,単語,文レベルでのDNA配列分類に対する種々の攻撃方法の影響を評価した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pre-trained language models such as DNABERT2 and Nucleotide Transformer, which are trained on DNA sequences, have shown promising performance in DNA sequence classification tasks. The classification ability of these models stems from language models trained on vast amounts of DNA sequence samples, followed by fine-tuning with relatively smaller classification datasets. However, these text-based systems are not robust enough and can be vulnerable to adversarial examples. While adversarial attacks have been widely studied in text classification, there is limited research in DNA sequence classification. In this paper, we adapt commonly used attack algorithms in text classification for DNA sequence classification. We evaluated the impact of various attack methods on DNA sequence classification at the character, word, and sentence levels. Our findings indicate that actual DNA language model sequence classifiers are vulnerable to these attacks.
Abstract（参考訳）: DNA配列に基づいて訓練されたDNABERT2やヌクレオチドトランスフォーマーなどの事前訓練された言語モデルは、DNA配列分類タスクにおいて有望な性能を示した。これらのモデルの分類能力は、大量のDNA配列サンプルに基づいて訓練された言語モデルと、比較的小さな分類データセットによる微調整に起因している。しかし、これらのテキストベースのシステムは十分に堅牢ではなく、敵の例に対して脆弱である。逆行攻撃はテキスト分類において広く研究されているが、DNA配列分類では限定的な研究がなされている。本稿では,DNAシークエンス分類のためのテキスト分類において,一般的な攻撃アルゴリズムを適用した。様々な攻撃方法が文字・単語・文レベルでのDNA配列分類に与える影響について検討した。以上の結果から,実際のDNA言語モデル配列分類器はこれらの攻撃に対して脆弱であることが示唆された。

関連論文リスト

BMFM-DNA: A SNP-aware DNA foundation model to capture variant effects [14.172782866715844]
テキストで訓練された大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な結果を示した。 DNAは、明確に定義された単語や一貫した文法が欠けているため、基本的に自然言語と異なる。配列の変動、特にSNP(Single Nucleotide Polymorphisms)を効果的に統合する事前訓練基礎モデル以上の結果から,DNALMに配列変化を組み込むことは,すべての微調整タスクの改善にみられる生物学的機能を把握するのに役立つことが示唆された。
論文参考訳（メタデータ） (2025-06-26T13:56:32Z)
HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model [70.69095062674944]
ハイブリッドトランスフォーマー-マンバ2アーキテクチャを組み込んだデコーダのみのDNA言語モデルであるHybriDNAを提案する。このハイブリッド設計により、HybriDNAはDNA配列を最大131kbまで効率よく単一のヌクレオチド分解能で処理できる。 HybriDNAは、BEND、GUE、LRBベンチマークから算出された33のDNA理解データセットにまたがる最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-15T14:23:43Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
Model Decides How to Tokenize: Adaptive DNA Sequence Tokenization with MxDNA [44.630039477717624]
MxDNAは、モデルが段階的に有効なDNAトークン化戦略を自律的に学習する新しいフレームワークである。我々は、MxDNAが従来の方法とは異なるユニークなトークン化戦略を学習し、自己教師付き事前学習中にトークンレベルでゲノム機能をキャプチャすることを示す。
論文参考訳（メタデータ） (2024-12-18T10:55:43Z)
DART-Eval: A Comprehensive DNA Language Model Evaluation Benchmark on Regulatory DNA [2.543784712990392]
大規模なゲノムDNA言語モデル(DNALM)は、多様なDNA要素の一般化可能な表現を学習することを目的としている。本ベンチマークでは, 機能的配列の特徴探索, 細胞型特異的制御活性の予測, 遺伝的変異の影響の予測など, 生物学的に有意義な下流課題を対象としている。
論文参考訳（メタデータ） (2024-12-06T21:23:35Z)
Dy-mer: An Explainable DNA Sequence Representation Scheme using Sparse Recovery [6.733319363951907]
textbfDy-merはスパースリカバリに基づく説明可能で堅牢な表現スキームである。 DNAプロモーターの分類における最先端のパフォーマンスを達成し、textbf13%の精度向上をもたらす。
論文参考訳（メタデータ） (2024-07-06T15:08:31Z)
VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文参考訳（メタデータ） (2024-05-13T20:15:03Z)
DNABERT-S: Pioneering Species Differentiation with Species-Aware DNA Embeddings [7.822348354050447]
DNABERT-S(DNABERT-S)は,異なる種のDNA配列を自然にクラスターし,分離するために,種認識の埋め込みを開発するゲノムモデルである。 23の多様なデータセットの創発的な結果は、特に現実的なラベルスカースシナリオにおいて、DNABERT-Sの有効性を示している。
論文参考訳（メタデータ） (2024-02-13T20:21:29Z)
Efficient and Scalable Fine-Tune of Language Models for Genome Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。 DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。 textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文参考訳（メタデータ） (2024-02-12T21:40:45Z)
BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文参考訳（メタデータ） (2023-11-21T12:34:00Z)
Prompt-based Grouping Transformer for Nucleus Detection and Classification [70.55961378096116]
核の検出と分類は、疾患の診断に有効な情報を生み出す。既存のほとんどの手法は、核を独立に分類するか、核とそのグループの特徴の間の意味的類似性を十分に利用しない。グループ変換器をベースとした新しいエンドツーエンドの原子核検出・分類フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-22T04:50:48Z)
Embed-Search-Align: DNA Sequence Alignment using Transformer Models [2.48439258515764]
我々はTransformerモデルのシーケンスアライメントタスクを"Embed-Search-Align"タスクとしてフレーミングすることでギャップを埋める。新規なレファレンスフリーDNA埋め込みモデルは、共有ベクトル空間に投影される読み取りおよび参照フラグメントの埋め込みを生成する。 DNA-ESAは、BowtieやBWA-Memといった従来の手法に匹敵する、ヒトゲノム(3gb)に250長の読み書きを合わせると99%正確である。
論文参考訳（メタデータ） (2023-09-20T06:30:39Z)
DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文参考訳（メタデータ） (2023-07-11T06:30:43Z)
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。 Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文参考訳（メタデータ） (2023-06-27T20:46:34Z)
Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文参考訳（メタデータ） (2022-10-05T20:44:55Z)
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ） (2021-11-04T12:59:55Z)
Is BERT a Cross-Disciplinary Knowledge Learner? A Surprising Finding of Pre-trained Models' Transferability [74.11825654535895]
BERTなどのテキストデータに予め訓練されたモデルのパワーを、一般的なトークンシーケンス分類アプリケーションに転送できるかどうかを検討します。テキスト以外のデータでも、テキストに事前学習されたモデルはランダムなモデルよりも高速に収束する。
論文参考訳（メタデータ） (2021-03-12T09:19:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。