論文の概要: How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences
- arxiv url: http://arxiv.org/abs/2603.06950v1
- Date: Fri, 06 Mar 2026 23:52:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.487028
- Title: How Private Are DNA Embeddings? Inverting Foundation Model Representations of Genomic Sequences
- Title(参考訳): DNAの埋め込みはどの程度プライベートか? ゲノム配列の基盤モデル表現を反転させる
- Authors: Sofiane Ouaari, Jules Kreuer, Nico Pfeifer,
- Abstract要約: DNA基盤モデルは、バイオインフォマティクスや医療応用における変革的なツールとなっている。
Embeddings-as-a-Service (EBERT) フレームワークは Embeddings-as-a-Service を通じて共有されつつある。
本研究では,DNA基盤モデルのインバージョン攻撃に対するレジリエンスを評価する。
- 参考スコア(独自算出の注目度): 0.45880283710344055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DNA foundation models have become transformative tools in bioinformatics and healthcare applications. Trained on vast genomic datasets, these models can be used to generate sequence embeddings, dense vector representations that capture complex genomic information. These embeddings are increasingly being shared via Embeddings-as-a-Service (EaaS) frameworks to facilitate downstream tasks, while supposedly protecting the privacy of the underlying raw sequences. However, as this practice becomes more prevalent, the security of these representations is being called into question. This study evaluates the resilience of DNA foundation models to model inversion attacks, whereby adversaries attempt to reconstruct sensitive training data from model outputs. In our study, the model's output for reconstructing the DNA sequence is a zero-shot embedding, which is then fed to a decoder. We evaluated the privacy of three DNA foundation models: DNABERT-2, Evo 2, and Nucleotide Transformer v2 (NTv2). Our results show that per-token embeddings allow near-perfect sequence reconstruction across all models. For mean-pooled embeddings, reconstruction quality degrades as sequence length increases, though it remains substantially above random baselines. Evo 2 and NTv2 prove to be most vulnerable, especially for shorter sequences with reconstruction similarities > 90%, while DNABERT-2's BPE tokenization provides the greatest resilience. We found that the correlation between embedding similarity and sequence similarity was a key predictor of reconstruction success. Our findings emphasize the urgent need for privacy-aware design in genomic foundation models prior to their widespread deployment in EaaS settings. Training code, model weights and evaluation pipeline are released on: https://github.com/not-a-feature/DNA-Embedding-Inversion.
- Abstract(参考訳): DNA基盤モデルは、バイオインフォマティクスや医療応用における変革的なツールとなっている。
膨大なゲノムデータセットに基づいてトレーニングされたこれらのモデルは、複雑なゲノム情報をキャプチャするシーケンス埋め込み、密度の高いベクトル表現を生成するために使用することができる。
これらの埋め込みは、下流タスクを容易にするためのEmbedddings-as-a-Service(EaaS)フレームワークを介して共有されつつ、基盤となる生のシーケンスのプライバシを保護していると考えられている。
しかし、この慣行が普及するにつれて、これらの表現のセキュリティが問題視されている。
本研究では,DNA基盤モデルのインバージョン攻撃に対するレジリエンスを評価し,敵はモデル出力からセンシティブなトレーニングデータを再構成しようと試みる。
本研究では,DNA配列を再構成するためのモデルの出力はゼロショット埋め込みであり,デコーダに供給される。
DNABERT-2, Evo 2, Nucleotide Transformer v2 (NTv2) の3種類のDNA基盤モデルのプライバシを評価した。
提案手法により,全モデルにまたがるほぼ完全な配列再構成が可能となった。
平均プール埋め込みでは、配列の長さが増加するにつれて復元品質は低下するが、これはランダムなベースラインよりもかなり上である。
Evo 2 と NTv2 が最も脆弱であることが証明されており、特にDNABERT-2 の BPE トークン化は最大のレジリエンスをもたらす。
組込み類似度とシーケンス類似度との相関が,再建成功の鍵となる予測因子であることがわかった。
EaaS設定に広く展開される前に、ゲノム基盤モデルでプライバシを意識した設計を緊急に必要とすることを強調した。
トレーニングコード、モデルウェイト、評価パイプラインは、https://github.com/not-a-feature/DNA-Embedding-Inversionでリリースされている。
関連論文リスト
- S$^2$Drug: Bridging Protein Sequence and 3D Structure in Contrastive Representation Learning for Virtual Screening [72.89086338778098]
タンパク質リガンドコントラスト表現学習のための2段階フレームワークを提案する。
最初の段階では、ESM2ベースのバックボーンを用いて、ChemBLでタンパク質配列を事前訓練する。
第2段階では、残基レベルゲーティングモジュールを介して配列と構造情報を融合することでPDBBindを微調整する。
この補助的なタスクは、モデルを誘導し、タンパク質配列内の結合残基を正確に局在させ、それらの3次元空間配列をキャプチャする。
論文 参考訳(メタデータ) (2025-11-10T11:57:47Z) - eccDNAMamba: A Pre-Trained Model for Ultra-Long eccDNA Sequence Analysis [5.86106644437914]
染色体外環状DNA(eccDNA)は重要な調節因子であり、癌における癌遺伝子過剰発現に寄与する。
現在、トレーニング済みのモデルでは、下流分析のためにフル長の円形eccDNAをサポートしていない。
eccDNAMambaは、円形DNA配列に調整された最初の双方向状態空間エンコーダである。
論文 参考訳(メタデータ) (2025-06-22T17:50:57Z) - Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文 参考訳(メタデータ) (2025-03-11T02:33:33Z) - DNABERT-S: Pioneering Species Differentiation with Species-Aware DNA Embeddings [7.822348354050447]
DNABERT-S(DNABERT-S)は,異なる種のDNA配列を自然にクラスターし,分離するために,種認識の埋め込みを開発するゲノムモデルである。
23の多様なデータセットの創発的な結果は、特に現実的なラベルスカースシナリオにおいて、DNABERT-Sの有効性を示している。
論文 参考訳(メタデータ) (2024-02-13T20:21:29Z) - DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence
Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。
古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-11T06:30:43Z) - DA-VEGAN: Differentiably Augmenting VAE-GAN for microstructure
reconstruction from extremely small data sets [110.60233593474796]
DA-VEGANは2つの中心的なイノベーションを持つモデルである。
$beta$-variational autoencoderはハイブリッドGANアーキテクチャに組み込まれている。
このアーキテクチャに特化して、独自の差別化可能なデータ拡張スキームが開発されている。
論文 参考訳(メタデータ) (2023-02-17T08:49:09Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。