論文の概要: LoRA as Oracle
- arxiv url: http://arxiv.org/abs/2601.11207v1
- Date: Fri, 16 Jan 2026 11:32:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.472268
- Title: LoRA as Oracle
- Title(参考訳): OracleとしてのLoRA
- Authors: Marco Arazzi, Antonino Nocera,
- Abstract要約: 低ランク適応モジュールをバックドア検出とメンバシップ推論のための軽量でモデルに依存しないプローブとして活用する,LoRAベースの新しいオラクルフレームワークを提案する。
その結果, 汚染された試料は, クリーンデータや非メンバーデータと大きく異なる, 顕著な低ランク更新を誘導することがわかった。
これらの信号は単純なランキングとエネルギーベース統計を用いて測定することができ、元のトレーニングデータにアクセスしたり、デプロイされたモデルを変更することなく、信頼性の高い推論を可能にする。
- 参考スコア(独自算出の注目度): 4.268422949754082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoored and privacy-leaking deep neural networks pose a serious threat to the deployment of machine learning systems in security-critical settings. Existing defenses for backdoor detection and membership inference typically require access to clean reference models, extensive retraining, or strong assumptions about the attack mechanism. In this work, we introduce a novel LoRA-based oracle framework that leverages low-rank adaptation modules as a lightweight, model-agnostic probe for both backdoor detection and membership inference. Our approach attaches task-specific LoRA adapters to a frozen backbone and analyzes their optimization dynamics and representation shifts when exposed to suspicious samples. We show that poisoned and member samples induce distinctive low-rank updates that differ significantly from those generated by clean or non-member data. These signals can be measured using simple ranking and energy-based statistics, enabling reliable inference without access to the original training data or modification of the deployed model.
- Abstract(参考訳): バックドアとプライバシをリードするディープニューラルネットワークは、セキュリティクリティカルな設定における機械学習システムのデプロイに深刻な脅威をもたらす。
既存のバックドア検出とメンバーシップ推論のための防御は、通常、クリーンな参照モデルへのアクセス、広範囲の再訓練、あるいは攻撃機構に関する強い仮定を必要とする。
本研究では,低ランク適応モジュールをバックドア検出とメンバシップ推論の両方のための軽量でモデルに依存しないプローブとして活用する,LoRAベースの新しいオラクルフレームワークを提案する。
提案手法では,タスク固有のLoRAアダプタを凍結したバックボーンにアタッチし,不審なサンプルに曝した際の最適化のダイナミクスと表現のシフトを解析する。
その結果, 汚染された試料は, クリーンデータや非メンバーデータと大きく異なる, 顕著な低ランク更新を誘導することがわかった。
これらの信号は単純なランキングとエネルギーベース統計を用いて測定することができ、元のトレーニングデータにアクセスしたり、デプロイされたモデルを変更することなく、信頼性の高い推測を可能にする。
関連論文リスト
- Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - RADEP: A Resilient Adaptive Defense Framework Against Model Extraction Attacks [6.6680585862156105]
モデル抽出攻撃防御(RADEP)のためのレジリエント・アダプティブ・ディフェンス・フレームワークについて紹介する。
RADEPは、抽出の試みに対するモデルレジリエンスを高めるために、プログレッシブ・逆行訓練を採用している。
オーナーシップ検証は、組み込みのウォーターマーキングとバックドアトリガーを通じて実施される。
論文 参考訳(メタデータ) (2025-05-25T23:28:05Z) - Defending the Edge: Representative-Attention for Mitigating Backdoor Attacks in Federated Learning [7.808916974942399]
不均一エッジデバイスは、多種多様で非独立で、同一に分散された(非IID)データを生成する。
本稿では, 悪意のあるクライアントと良識を区別するための, FeRA という, 表現力に基づく防衛機構を提案する。
本評価では,エッジデバイスに典型的な非IIDデータ分散に挑戦するなど,さまざまなFLシナリオにおけるFeRAの堅牢性を示す。
論文 参考訳(メタデータ) (2025-05-15T13:44:32Z) - Runtime Backdoor Detection for Federated Learning via Representational Dissimilarity Analysis [24.56608572464567]
フェデレーションラーニング(FL)は、分散クライアントからモデル更新を集約することで、共有モデルをトレーニングする。
モデル学習をローカルデータから切り離すことで、FLはバックドア攻撃に対して非常に脆弱になる。
本稿では,悪意のあるクライアントを,正確で安定的で効率的な方法で検出する手法を提案する。
論文 参考訳(メタデータ) (2025-03-06T14:23:18Z) - BackdoorIndicator: Leveraging OOD Data for Proactive Backdoor Detection in Federated Learning [7.528642177161784]
FL(Federated Learning)システムでは、分散データオーナ(クライアント)が、ローカルにトレーニングされたモデルを中央サーバにアップロードして、グローバルモデルを共同でトレーニングすることが可能になる。
悪意のあるクライアントは、有害なローカルモデルをアップロードすることでバックドアをグローバルモデルに配置し、攻撃者が定義したトリガーに遭遇したときにターゲットクラスに誤分類を引き起こす可能性がある。
既存のバックドアディフェンスは、特に悪意のある更新が統計的に良質なものに近づいた場合に、異なるシステムと敵対的な設定下での一貫性のないパフォーマンスを示す。
我々は,サーバがグローバルモデルにインジケータタスクをインジェクタとしてインジェクタをインジェクタインジェクタにインジェクタインジェクタをインジェクタインジェクタにインジェクタインジェクタインジェクタにインジェクタインジェクタインジェクタインジェクタインジェクタをインジェクタインジェクタインジェクタにインジェクタインジェクタインジェクタインジェクタインジェクタインジェクタインジェクタイン
論文 参考訳(メタデータ) (2024-05-31T14:44:57Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Client-side Gradient Inversion Against Federated Learning from Poisoning [59.74484221875662]
フェデレートラーニング(FL)により、分散参加者は、データを中央サーバに直接共有することなく、グローバルモデルをトレーニングできる。
近年の研究では、FLは元のトレーニングサンプルの再構築を目的とした勾配反転攻撃(GIA)に弱いことが判明している。
本稿では,クライアント側から起動可能な新たな攻撃手法であるクライアント側中毒性グレーディエント・インバージョン(CGI)を提案する。
論文 参考訳(メタデータ) (2023-09-14T03:48:27Z) - Shared Adversarial Unlearning: Backdoor Mitigation by Unlearning Shared
Adversarial Examples [67.66153875643964]
バックドア攻撃は、機械学習モデルに対する深刻なセキュリティ脅威である。
本稿では,小さなクリーンデータセットを用いて,バックドアモデルの浄化作業について検討する。
バックドアリスクと敵的リスクの関連性を確立することにより、バックドアリスクに対する新たな上限を導出する。
論文 参考訳(メタデータ) (2023-07-20T03:56:04Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - CrowdGuard: Federated Backdoor Detection in Federated Learning [39.58317527488534]
本稿では,フェデレートラーニングにおけるバックドア攻撃を効果的に軽減する新しい防御機構であるCrowdGuardを提案する。
CrowdGuardでは、サーバロケーションのスタック化されたクラスタリングスキームを使用して、クライアントからのフィードバックに対するレジリエンスを高めている。
評価結果は、CrowdGuardがさまざまなシナリオで100%正の正の正の正の負の負の負の値を達成することを示す。
論文 参考訳(メタデータ) (2022-10-14T11:27:49Z) - Identifying Backdoor Attacks in Federated Learning via Anomaly Detection [31.197488921578984]
フェデレーション学習はバックドア攻撃に弱い。
本稿では,共有モデル更新を検証し,攻撃に対する効果的な防御方法を提案する。
提案手法が最先端のバックドア攻撃を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2022-02-09T07:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。