論文の概要: Neural Gate: Mitigating Privacy Risks in LVLMs via Neuron-Level Gradient Gating
- arxiv url: http://arxiv.org/abs/2603.12598v1
- Date: Fri, 13 Mar 2026 03:03:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.865309
- Title: Neural Gate: Mitigating Privacy Risks in LVLMs via Neuron-Level Gradient Gating
- Title(参考訳): Neural Gate: ニューロンレベルグラディエントゲーティングによるLVLMのプライバシリスクの軽減
- Authors: Xiangkui Cao, Jie Zhang, Meina Kan, Shiguang Shan, Xilin Chen,
- Abstract要約: ニューラルゲート(Neural Gate)は,ニューロンレベルのモデル編集によってプライバシリスクを軽減する新しい手法である。
本手法は,プライバシ関連質問に対する拒否率を高めることにより,モデルのプライバシ保護を改善する。
- 参考スコア(独自算出の注目度): 71.55435880263238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have shown remarkable potential across a wide array of vision-language tasks, leading to their adoption in critical domains such as finance and healthcare. However, their growing deployment also introduces significant security and privacy risks. Malicious actors could potentially exploit these models to extract sensitive information, highlighting a critical vulnerability. Recent studies show that LVLMs often fail to consistently refuse instructions designed to compromise user privacy. While existing work on privacy protection has made meaningful progress in preventing the leakage of sensitive data, they are constrained by limitations in both generalization and non-destructiveness. They often struggle to robustly handle unseen privacy-related queries and may inadvertently degrade a model's performance on standard tasks. To address these challenges, we introduce Neural Gate, a novel method for mitigating privacy risks through neuron-level model editing. Our method improves a model's privacy safeguards by increasing its rate of refusal for privacy-related questions, crucially extending this protective behavior to novel sensitive queries not encountered during the editing process. Neural Gate operates by learning a feature vector to identify neurons associated with privacy-related concepts within the model's representation of a subject. This localization then precisely guides the update of model parameters. Through comprehensive experiments on MiniGPT and LLaVA, we demonstrate that our method significantly boosts the model's privacy protection while preserving its original utility.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、さまざまな視覚言語タスクにおいて大きなポテンシャルを示しており、金融や医療といった重要な領域で採用されている。
しかし、そのデプロイの増加は、セキュリティとプライバシの重大なリスクももたらします。
悪意のあるアクターは、これらのモデルを利用して機密情報を抽出し、重大な脆弱性を浮き彫りにする可能性がある。
最近の研究によると、LVLMはユーザーのプライバシーを侵害するための命令を一貫して拒否することができないことが多い。
プライバシー保護に関するこれまでの研究は、機密データの漏洩を防ぐために有意義な進歩を遂げてきたが、それらは一般化と非破壊性の両方の制限によって制約されている。
彼らはしばしば、目に見えないプライバシ関連のクエリを堅牢に処理するのに苦労し、標準タスクにおけるモデルのパフォーマンスを故意に低下させる可能性がある。
これらの課題に対処するために、ニューラルゲート(Neural Gate)は、ニューロンレベルのモデル編集によってプライバシーリスクを軽減する新しい方法である。
本手法は,プライバシ関連質問に対する拒否率を高め,この保護行動を編集プロセス中に発生しない新規なセンシティブなクエリに決定的に拡張することにより,モデルのプライバシ保護を改善する。
Neural Gateは機能ベクトルを学習して、モデルの主題表現内のプライバシ関連概念に関連するニューロンを識別する。
このローカライゼーションはモデルパラメータの更新を正確に導く。
MiniGPT と LLaVA に関する総合的な実験を通じて,本手法はモデルのプライバシ保護を著しく促進し,元のユーティリティを保存できることを実証する。
関連論文リスト
- Forget What's Sensitive, Remember What Matters: Token-Level Differential Privacy in Memory Sculpting for Continual Learning [26.034865955638864]
プライバシーを強化した継続的学習フレームワークを提案する。
当社のアプローチではまず,トークンレベルの動的微分プライバシ戦略を導入しています。
次に、プライバシ誘導型メモリ彫刻モジュールを統合する。
論文 参考訳(メタデータ) (2025-09-16T11:01:59Z) - A Survey on Privacy Risks and Protection in Large Language Models [13.602836059584682]
大規模言語モデル(LLM)は多様なアプリケーションにますます統合され、プライバシーの懸念が高まっている。
この調査は、LCMに関連するプライバシーリスクの包括的概要を提供し、これらの課題を軽減するための現在のソリューションを調べます。
論文 参考訳(メタデータ) (2025-05-04T03:04:07Z) - Privacy in Fine-tuning Large Language Models: Attacks, Defenses, and Future Directions [11.338466798715906]
細調整された大規模言語モデル(LLM)は、様々な領域で最先端のパフォーマンスを達成することができる。
本稿では、微調整LDMに関連するプライバシー問題に関する包括的調査を行う。
メンバーシップ推論、データ抽出、バックドア攻撃など、さまざまなプライバシ攻撃に対する脆弱性を強調します。
論文 参考訳(メタデータ) (2024-12-21T06:41:29Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - PAC Privacy Preserving Diffusion Models [6.299952353968428]
拡散モデルは、高いプライバシーと視覚的品質の両方で画像を生成することができる。
しかし、特定のデータ属性の民営化において堅牢な保護を確保するといった課題が発生する。
PACプライバシー保護拡散モデル(PAC Privacy Preserving Diffusion Model)を導入する。
論文 参考訳(メタデータ) (2023-12-02T18:42:52Z) - Privacy in Large Language Models: Attacks, Defenses and Future Directions [84.73301039987128]
大規模言語モデル(LLM)を対象とした現在のプライバシ攻撃を分析し、敵の想定能力に応じて分類する。
本稿では、これらのプライバシー攻撃に対抗するために開発された防衛戦略について概説する。
論文 参考訳(メタデータ) (2023-10-16T13:23:54Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Hiding Visual Information via Obfuscating Adversarial Perturbations [47.315523613407244]
本稿では,データの視覚的プライバシを保護するために,敵対的な視覚情報隠蔽手法を提案する。
具体的には、データの視覚情報を隠蔽する難読化対向摂動を生成する。
認識・分類タスクの実験結果から,提案手法が視覚情報を効果的に隠蔽できることが示唆された。
論文 参考訳(メタデータ) (2022-09-30T08:23:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。