論文の概要: Comparing Reconstruction Attacks on Pretrained Versus Full Fine-tuned Large Language Model Embeddings on Homo Sapiens Splice Sites Genomic Data
- arxiv url: http://arxiv.org/abs/2511.07481v1
- Date: Wed, 12 Nov 2025 01:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.355274
- Title: Comparing Reconstruction Attacks on Pretrained Versus Full Fine-tuned Large Language Model Embeddings on Homo Sapiens Splice Sites Genomic Data
- Title(参考訳): ホモ・サピエンス・スプリス・スプリス・データを用いた学習済み完全微調整大言語モデル埋め込みにおける再構成攻撃の比較
- Authors: Reem Al-Saidi, Erman Ayday, Ziad Kobti,
- Abstract要約: 本研究では,ゲノム配列に適用した大規模言語モデルにおける組込み再構成攻撃について検討した。
HS3Dゲノミクスデータセットを用いて包括的な分析を行い、タスク固有の最適化がプライバシー保護を強化するか弱めるかを決定する。
- 参考スコア(独自算出の注目度): 4.729128449905504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates embedding reconstruction attacks in large language models (LLMs) applied to genomic sequences, with a specific focus on how fine-tuning affects vulnerability to these attacks. Building upon Pan et al.'s seminal work demonstrating that embeddings from pretrained language models can leak sensitive information, we conduct a comprehensive analysis using the HS3D genomic dataset to determine whether task-specific optimization strengthens or weakens privacy protections. Our research extends Pan et al.'s work in three significant dimensions. First, we apply their reconstruction attack pipeline to pretrained and fine-tuned model embeddings, addressing a critical gap in their methodology that did not specify embedding types. Second, we implement specialized tokenization mechanisms tailored specifically for DNA sequences, enhancing the model's ability to process genomic data, as these models are pretrained on natural language and not DNA. Third, we perform a detailed comparative analysis examining position-specific, nucleotide-type, and privacy changes between pretrained and fine-tuned embeddings. We assess embeddings vulnerabilities across different types and dimensions, providing deeper insights into how task adaptation shifts privacy risks throughout genomic sequences. Our findings show a clear distinction in reconstruction vulnerability between pretrained and fine-tuned embeddings. Notably, fine-tuning strengthens resistance to reconstruction attacks in multiple architectures -- XLNet (+19.8\%), GPT-2 (+9.8\%), and BERT (+7.8\%) -- pointing to task-specific optimization as a potential privacy enhancement mechanism. These results highlight the need for advanced protective mechanisms for language models processing sensitive genomic data, while highlighting fine-tuning as a potential privacy-enhancing technique worth further exploration.
- Abstract(参考訳): 本研究は,大規模言語モデル(LLM)のゲノム配列への組込み再構築攻撃について検討し,これらの攻撃に対する微調整が脆弱性にどのように影響するかに着目した。
事前訓練された言語モデルからの埋め込みが機密情報を漏洩する可能性があることを示すPan et alのセミナルな研究に基づいて、HS3Dゲノムデータセットを使用して包括的な分析を行い、タスク固有の最適化がプライバシー保護を強化または弱めるかどうかを判断する。
私たちの研究は、Pan et alの研究を3つの重要な次元で拡張しています。
まず,プレトレーニング済みおよび微調整済みのモデル埋め込みに対して,それらの再構築攻撃パイプラインを適用し,埋め込み型を規定しない方法論における重要なギャップに対処する。
第二に、DNA配列に特化された特殊トークン化機構を実装し、これらのモデルがDNAではなく自然言語で事前訓練されているため、ゲノムデータを処理するモデルの能力を高める。
第3に、予め訓練された埋め込みと微調整された埋め込みの間の位置特異性、ヌクレオチド型、およびプライバシーの変化を詳細に比較した。
さまざまなタイプや次元にまたがる埋め込み脆弱性を評価し、タスク適応がゲノム配列を通してプライバシリスクをどのようにシフトするかについて、より深い洞察を提供する。
以上の結果より, 術前埋込み工法と微調整工法による再建の脆弱性は明らかであった。
特に、微調整は、XLNet(+19.8\%)、GPT-2(+9.8\%)、BERT(+7.8\%)といった複数のアーキテクチャにおける再構築攻撃に対する耐性を強化する。
これらの結果は、センシティブなゲノムデータを処理する言語モデルのための高度な保護メカニズムの必要性を強調し、さらに調査する価値のあるプライバシー強化技術として微調整を強調している。
関連論文リスト
- DISPROTBENCH: A Disorder-Aware, Task-Rich Benchmark for Evaluating Protein Structure Prediction in Realistic Biological Contexts [76.59606029593085]
DisProtBenchは、構造障害および複雑な生物学的条件下でタンパク質構造予測モデル(PSPM)を評価するためのベンチマークである。
DisProtBenchはデータの複雑さ、タスクの多様性、解釈可能性という3つの重要な軸にまたがっている。
その結果,機能的予測障害と相関する低信頼領域を有する障害下でのモデルロバスト性に有意な変動が認められた。
論文 参考訳(メタデータ) (2025-06-18T23:58:22Z) - Accidental Vulnerability: Factors in Fine-Tuning that Shift Model Safeguards [13.197807179926428]
大規模言語モデル(LLM)の人気が高まり、敵の攻撃に対する脆弱性が主な関心事として浮上する。
本研究では,微調整データの特徴から生じるアクシデンタル脆弱性,予期せぬ脆弱性について検討する。
論文 参考訳(メタデータ) (2025-05-22T15:30:00Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z) - How Spurious Features Are Memorized: Precise Analysis for Random and NTK Features [19.261178173399784]
学習課題とは無関係な突発的な特徴について考察する。
それらがどのように2つの異なる用語で記憶されるのかを正確に評価する。
一般化能力の増大に伴い,突発的特徴の記憶が弱まることを示す。
論文 参考訳(メタデータ) (2023-05-20T05:27:41Z) - Ankh: Optimized Protein Language Model Unlocks General-Purpose Modelling [0.0]
GoogleのTPU-v4でトレーニングされた最初の汎用タンパク言語モデルであるAnkhを紹介します。
アンクは、タンパク質の進化保存変異の傾向を学習し、重要な構造-機能的特性を維持しながら機能的多様性を導入することに成功している。
論文 参考訳(メタデータ) (2023-01-16T19:04:45Z) - Graph Backdoor [53.70971502299977]
GTAはグラフニューラルネットワーク(GNN)に対する最初のバックドア攻撃である。
GTAは、トポロジカル構造と記述的特徴の両方を含む特定の部分グラフとしてトリガーを定義する。
トランスダクティブ(ノード分類など)とインダクティブ(グラフ分類など)の両方のタスクに対してインスタンス化することができる。
論文 参考訳(メタデータ) (2020-06-21T19:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。