論文の概要: Quantifying Memorization and Privacy Risks in Genomic Language Models
- arxiv url: http://arxiv.org/abs/2603.08913v1
- Date: Mon, 09 Mar 2026 20:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.817159
- Title: Quantifying Memorization and Privacy Risks in Genomic Language Models
- Title(参考訳): ゲノム言語モデルにおける記憶とプライバシーリスクの定量化
- Authors: Alexander Nemecek, Wenbiao Li, Xiaoqian Jiang, Jaideep Vaidya, Erman Ayday,
- Abstract要約: ゲノム言語モデル(GLM)はDNA配列の表現を学習するための強力なツールとして登場した。
GLMはトレーニングデータから特定のシーケンスを記憶し、プライバシやデータ漏洩、規制コンプライアンスに関する深刻な懸念を提起するリスクがある。
GLMにおける暗記リスクの定量化を目的とした,包括的かつ多ベクトルなプライバシ評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 46.592953963976356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Genomic language models (GLMs) have emerged as powerful tools for learning representations of DNA sequences, enabling advances in variant prediction, regulatory element identification, and cross-task transfer learning. However, as these models are increasingly trained or fine-tuned on sensitive genomic cohorts, they risk memorizing specific sequences from their training data, raising serious concerns around privacy, data leakage, and regulatory compliance. Despite growing awareness of memorization risks in general-purpose language models, little systematic evaluation exists for these risks in the genomic domain, where data exhibit unique properties such as a fixed nucleotide alphabet, strong biological structure, and individual identifiability. We present a comprehensive, multi-vector privacy evaluation framework designed to quantify memorization risks in GLMs. Our approach integrates three complementary risk assessment methodologies: perplexity-based detection, canary sequence extraction, and membership inference. These are combined into a unified evaluation pipeline that produces a worst-case memorization risk score. To enable controlled evaluation, we plant canary sequences at varying repetition rates into both synthetic and real genomic datasets, allowing precise quantification of how repetition and training dynamics influence memorization. We evaluate our framework across multiple GLM architectures, examining the relationship between sequence repetition, model capacity, and memorization risk. Our results establish that GLMs exhibit measurable memorization and that the degree of memorization varies across architectures and training regimes. These findings reveal that no single attack vector captures the full scope of memorization risk, underscoring the need for multi-vector privacy auditing as a standard practice for genomic AI systems.
- Abstract(参考訳): ゲノム言語モデル(GLM)は、DNA配列の表現を学習する強力なツールとして登場し、変異予測、規制要素の識別、クロスタスクトランスファー学習の進歩を可能にしている。
しかし、これらのモデルがセンシティブなゲノムコホートで訓練され、微調整されているため、トレーニングデータから特定のシーケンスを記憶し、プライバシやデータ漏洩、規制コンプライアンスに関する深刻な懸念を生じさせるリスクがある。
汎用言語モデルにおける記憶リスクに対する認識の高まりにもかかわらず、固定されたヌクレオチドアルファベット、強い生物学的構造、個人識別性などのユニークな性質を示すゲノム領域において、これらのリスクに対する体系的な評価はほとんど存在しない。
GLMにおける暗記リスクの定量化を目的とした,包括的かつ多ベクトルなプライバシ評価フレームワークを提案する。
提案手法は,パープレキシティに基づく検出,カナリアシークエンス抽出,メンバシップ推論の3つの相補的リスク評価手法を統合した。
これらは統合評価パイプラインに統合され、最悪のケースの記憶リスクスコアを生成する。
制御された評価を可能にするため、合成および実際のゲノムデータセットに異なる反復率でカナリア配列を植え込み、反復とトレーニングのダイナミクスが記憶に与える影響の正確な定量化を可能にした。
我々は,複数のGLMアーキテクチャを対象としたフレームワークの評価を行い,シーケンス繰り返し,モデルキャパシティ,記憶リスクの関係について検討した。
以上の結果から,GLMは測定可能な記憶度を示し,記憶度はアーキテクチャやトレーニング体制によって異なることが判明した。
これらの結果は、単一の攻撃ベクトルがメモリ化リスクの全範囲を捉えておらず、ゲノムAIシステムの標準的なプラクティスとして、マルチベクタープライバシ監査の必要性が強調されていることを示している。
関連論文リスト
- Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation [50.87199039334856]
Retrieval-Augmented Generation (RAG) は知識集約型アプリケーションの基礎となっている。
近年の研究では、悪意あるクエリによって知識抽出攻撃が機密知識ベースコンテンツを回復できることが示されている。
本稿では,RAGシステムに対する知識抽出攻撃のための最初の体系的ベンチマークを紹介する。
論文 参考訳(メタデータ) (2026-02-10T01:27:46Z) - The Hidden Cost of Modeling P(X): Vulnerability to Membership Inference Attacks in Generative Text Classifiers [6.542294761666199]
メンバーシップ推論攻撃(MIA)は、モデルのトレーニングデータセットに特定のサンプルが含まれているかどうかを敵が判断できるようにすることで、重要なプライバシー上の脅威となる。
結合可能性$P(X,Y)$を明示的にモデル化した完全生成型分類器は、メンバシップリークに対して最も脆弱であることを示す。
論文 参考訳(メタデータ) (2025-10-17T18:09:33Z) - Scrub It Out! Erasing Sensitive Memorization in Code Language Models via Machine Unlearning [50.45435841411193]
Code Language Models (CLMs)は、機密性のあるトレーニングデータの意図しない記憶を示し、具体的に指示された場合に機密情報の冗長な再現を可能にする。
CodeEraserは、コードの構造的整合性と機能的正当性を保ちながら、センシティブな記憶されたセグメントを選択的にコードに解放する高度な変種である。
論文 参考訳(メタデータ) (2025-09-17T07:12:35Z) - Memorization in Language Models through the Lens of Intrinsic Dimension [0.0]
言語モデル(LM)は、トレーニング中にデータの一部を記憶し、世代毎に意図せずに出力する傾向がある。
Intrinsic Dimension (ID) は, 潜時空間における配列の構造的複雑さの幾何的プロキシであり, 記憶の変調における役割について検討する。
論文 参考訳(メタデータ) (2025-06-11T10:42:27Z) - Skewed Memorization in Large Language Models: Quantification and Decomposition [23.097554469918357]
LLM(Large Language Models)のメモリ化は、プライバシとセキュリティのリスクを引き起こす。
本稿では,教師付き微調整(SFT)の記憶について検討し,トレーニング期間,データセットサイズ,サンプル間類似度との関係について検討する。
論文 参考訳(メタデータ) (2025-02-03T09:23:53Z) - Detecting Memorization in Large Language Models [0.0]
大規模言語モデル(LLM)は自然言語処理において驚くべき結果を得たが、トレーニングデータの一部を記憶する傾向にある。
従来の暗記検出方法は出力確率や損失関数に依存している。
LLM内のニューロンの活性化を調べることによって,記憶を正確に検出する解析手法を提案する。
論文 参考訳(メタデータ) (2024-12-02T00:17:43Z) - Uncovering Latent Memories: Assessing Data Leakage and Memorization Patterns in Frontier AI Models [7.50189359952191]
本研究は,初対面後に記憶されないシーケンスをトレーニング中に「発見」できることを示す。
潜在記憶の存在は、記憶されたシーケンスがモデルの最終的なチェックポイントに隠される可能性があるため、データのプライバシの課題となる。
我々は,クロスエントロピー損失を利用した診断試験を開発し,高い精度で潜時記憶配列を明らかにする。
論文 参考訳(メタデータ) (2024-06-20T17:56:17Z) - Exploring Memorization in Adversarial Training [58.38336773082818]
本稿では, 能力, 収束, 一般化, 特に強靭なオーバーフィッティングの深い理解を促進するための, 対人訓練(AT)における記憶効果について検討する。
本稿では,詳細な記憶分析を動機とした新たな緩和アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-03T05:39:57Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。