論文の概要: FoldMark: Protecting Protein Generative Models with Watermarking
- arxiv url: http://arxiv.org/abs/2410.20354v4
- Date: Tue, 12 Nov 2024 02:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:17:11.614028
- Title: FoldMark: Protecting Protein Generative Models with Watermarking
- Title(参考訳): FoldMark: ウォーターマーキングによるタンパク質生成モデル保護
- Authors: Zaixi Zhang, Ruofan Jin, Kaidi Fu, Le Cong, Marinka Zitnik, Mengdi Wang,
- Abstract要約: 著作権保護と有害なコンテンツ生成は、タンパク質生成モデルの広範な実装に課題をもたらす。
タンパク質生成モデルの一般的な透かし戦略としての2段階FoldMarkを提案する。
本手法は, タンパク質構造品質に悪影響を及ぼすだけであり, ポストプロセッシングおよびアダプティブアタックの可能性を秘めている。
- 参考スコア(独自算出の注目度): 43.99328410299662
- License:
- Abstract: Protein structure is key to understanding protein function and is essential for progress in bioengineering, drug discovery, and molecular biology. Recently, with the incorporation of generative AI, the power and accuracy of computational protein structure prediction/design have been improved significantly. However, ethical concerns such as copyright protection and harmful content generation (biosecurity) pose challenges to the wide implementation of protein generative models. Here, we investigate whether it is possible to embed watermarks into protein generative models and their outputs for copyright authentication and the tracking of generated structures. As a proof of concept, we propose a two-stage method FoldMark as a generalized watermarking strategy for protein generative models. FoldMark first pretrain watermark encoder and decoder, which can minorly adjust protein structures to embed user-specific information and faithfully recover the information from the encoded structure. In the second step, protein generative models are fine-tuned with watermark-conditioned Low-Rank Adaptation (LoRA) modules to preserve generation quality while learning to generate watermarked structures with high recovery rates. Extensive experiments are conducted on open-source protein structure prediction models (e.g., ESMFold and MultiFlow) and de novo structure design models (e.g., FrameDiff and FoldFlow) and we demonstrate that our method is effective across all these generative models. Meanwhile, our watermarking framework only exerts a negligible impact on the original protein structure quality and is robust under potential post-processing and adaptive attacks.
- Abstract(参考訳): タンパク質の構造はタンパク質の機能を理解するための鍵であり、生物工学、薬物発見、分子生物学の進歩に不可欠である。
近年、生成AIの導入により、計算タンパク質構造予測・設計のパワーと精度が大幅に向上している。
しかし、著作権保護や有害なコンテンツ生成(バイオセキュリティ)といった倫理的懸念は、タンパク質生成モデルの広範な実装に課題をもたらす。
本稿では,タンパク質生成モデルに透かしを埋め込み,その出力を著作権認証や生成構造追跡に組み込むことが可能であるかを検討する。
概念実証として,タンパク質生成モデルの一般的な透かし戦略としてFoldMarkを提案する。
FoldMarkが最初に事前訓練した透かしエンコーダとデコーダは、タンパク質構造を微調整してユーザ固有の情報を埋め込んで、エンコードされた構造から忠実に情報を復元する。
第2のステップでは、タンパク質生成モデルに透かし条件付きローランド適応(LoRA)モジュールを微調整し、高い回収率で透かし構造を生成することを学習しながら生成品質を維持する。
オープンソースのタンパク質構造予測モデル(例:ESMFold、MultiFlow)とde novo構造設計モデル(例:FrameDiff、FoldFlow)について大規模な実験を行い、本手法がこれらの生成モデル全体にわたって有効であることを実証した。
一方,我々の透かしフレームワークは,元々のタンパク質構造にほとんど影響を与えず,ポストプロセッシングやアダプティブアタックの可能性を秘めている。
関連論文リスト
- NaNa and MiGu: Semantic Data Augmentation Techniques to Enhance Protein Classification in Graph Neural Networks [60.48306899271866]
本稿では,背骨化学および側鎖生物物理情報をタンパク質分類タスクに組み込む新しい意味データ拡張手法を提案する。
具体的には, 分子生物学的, 二次構造, 化学結合, およびタンパク質のイオン特性を活用し, 分類作業を容易にする。
論文 参考訳(メタデータ) (2024-03-21T13:27:57Z) - Functional Geometry Guided Protein Sequence and Backbone Structure
Co-Design [12.585697288315846]
本稿では,自動検出機能部位に基づくタンパク質配列と構造を共同設計するモデルを提案する。
NAEProは、全シーケンスでグローバルな相関を捉えることができる、注目層と同変層のインターリービングネットワークによって駆動される。
実験結果から,本モデルは全競技種の中で,最高アミノ酸回収率,TMスコア,最低RMSDを実現していることがわかった。
論文 参考訳(メタデータ) (2023-10-06T16:08:41Z) - Target-aware Variational Auto-encoders for Ligand Generation with
Multimodal Protein Representation Learning [2.01243755755303]
ターゲット認識型自動エンコーダであるTargetVAEを導入し、任意のタンパク質標的に対する高い結合親和性で生成する。
これは、タンパク質の異なる表現を単一のモデルに統一する最初の試みであり、これは我々がタンパク質マルチモーダルネットワーク(PMN)と呼ぶ。
論文 参考訳(メタデータ) (2023-08-02T12:08:17Z) - A Latent Diffusion Model for Protein Structure Generation [50.74232632854264]
本稿では,タンパク質モデリングの複雑さを低減できる潜在拡散モデルを提案する。
提案手法は, 高い設計性と効率性を有する新規なタンパク質のバックボーン構造を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-05-06T19:10:19Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Learning Geometrically Disentangled Representations of Protein Folding
Simulations [72.03095377508856]
この研究は、薬物標的タンパク質の構造的アンサンブルに基づいて生成ニューラルネットワークを学習することに焦点を当てている。
モデル課題は、様々な薬物分子に結合したタンパク質の構造的変動を特徴付けることである。
その結果,我々の幾何学的学習に基づく手法は,複雑な構造変化を生成するための精度と効率の両方を享受できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T19:38:00Z) - Structure-aware Protein Self-supervised Learning [50.04673179816619]
本稿では,タンパク質の構造情報を取得するための構造認識型タンパク質自己教師学習法を提案する。
特に、タンパク質構造情報を保存するために、よく設計されたグラフニューラルネットワーク(GNN)モデルを事前訓練する。
タンパク質言語モデルにおける逐次情報と特別に設計されたGNNモデルにおける構造情報との関係を,新しい擬似二段階最適化手法を用いて同定する。
論文 参考訳(メタデータ) (2022-04-06T02:18:41Z) - Deep Generative Modeling for Protein Design [0.0]
ディープラーニングアプローチは、画像分類や自然言語処理などの分野で画期的な成果を上げている。
タンパク質の遺伝子モデルが開発され、既知のタンパク質配列を全て含む、特定のタンパク質ファミリーをモデル化する、または個々のタンパク質のダイナミクスを外挿する。
本稿では、タンパク質のモデリングに最も成功した5種類の生成モデルについて論じ、ガイドされたタンパク質設計のためのフレームワークを提供する。
論文 参考訳(メタデータ) (2021-08-31T14:38:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。