Fugu-MT 論文翻訳(概要): PPO-MI: Efficient Black-Box Model Inversion via Proximal Policy Optimization

論文の概要: PPO-MI: Efficient Black-Box Model Inversion via Proximal Policy Optimization

arxiv url: http://arxiv.org/abs/2502.14370v1
Date: Thu, 20 Feb 2025 08:57:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.581339
Title: PPO-MI: Efficient Black-Box Model Inversion via Proximal Policy Optimization
Title（参考訳）: PPO-MI: 近似ポリシー最適化による効率的なブラックボックスモデルインバージョン
Authors: Xinpeng Shou,
Abstract要約: モデル反転攻撃は、訓練されたモデルからプライベートトレーニングデータを再構築しようとすることで、重大なプライバシーリスクを引き起こす。我々は,ブラックボックスモデルインバージョン攻撃のための新しい強化学習ベースのフレームワークであるPPO-MIを提案する。提案手法は, エージェントが生成モデルの潜伏空間をナビゲートし, プライベートトレーニングサンプルを再構成するマルコフ決定プロセスとして, インバージョンタスクを定式化する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model inversion attacks pose a significant privacy risk by attempting to reconstruct private training data from trained models. Most of the existing methods either depend on gradient estimation or require white-box access to model parameters, which limits their applicability in practical scenarios. In this paper, we propose PPO-MI, a novel reinforcement learning-based framework for black-box model inversion attacks. Our approach formulates the inversion task as a Markov Decision Process, where an agent navigates the latent space of a generative model to reconstruct private training samples using only model predictions. By employing Proximal Policy Optimization (PPO) with a momentum-based state transition mechanism, along with a reward function balancing prediction accuracy and exploration, PPO-MI ensures efficient latent space exploration and high query efficiency. We conduct extensive experiments illustrates that PPO-MI outperforms the existing methods while require less attack knowledge, and it is robust across various model architectures and datasets. These results underline its effectiveness and generalizability in practical black-box scenarios, raising important considerations for the privacy vulnerabilities of deployed machine learning models.
Abstract（参考訳）: モデル反転攻撃は、訓練されたモデルからプライベートトレーニングデータを再構築しようとすることで、重大なプライバシーリスクを引き起こす。既存の手法のほとんどは勾配推定に依存するか、モデルパラメータへのホワイトボックスアクセスを必要とする。本稿では,ブラックボックスモデルインバージョン攻撃のための新しい強化学習フレームワークであるPPO-MIを提案する。提案手法は, エージェントが生成モデルの潜在空間をナビゲートして, モデル予測のみを用いて, プライベートトレーニングサンプルを再構成する, マルコフ決定過程(Markov Decision Process)を定式化したものである。 Proximal Policy Optimization (PPO) と運動量に基づく状態遷移機構と、予測精度と探索のバランスをとる報酬関数を併用することにより、PPO-MIは効率的な潜時空間探索と高いクエリ効率を確保する。我々は、PPO-MIが攻撃の知識を減らしながら既存の手法よりも優れており、様々なモデルアーキテクチャやデータセットに対して堅牢であることを示す広範な実験を行った。これらの結果は、実践的なブラックボックスシナリオの有効性と一般化性を基盤として、デプロイされた機械学習モデルのプライバシ脆弱性に対する重要な考慮を提起する。

関連論文リスト

M3PO: Massively Multi-Task Model-Based Policy Optimization [46.42871544295734]
我々は、スケーラブルなモデルベース強化学習フレームワークであるM3PO(Massively Multi-Task Model-Based Policy Optimization)を紹介する。 M3POは、シングルタスク設定におけるサンプルの非効率とマルチタスクドメインにおける低一般化に対処する。 M3POは暗黙の世界モデルを統合し、観察の再構築なしにタスクの結果を予測するように訓練され、ハイブリッドな探索戦略が組み込まれている。
論文参考訳（メタデータ） (2025-06-26T21:39:01Z)
Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments [0.0]
本稿では,強化学習(RL)に基づくモデル管理が,展開決定をより効果的に管理できるかどうかを検討する。当社のアプローチは、デプロイされたモデルを継続的に評価し、パフォーマンスの低いモデルをリアルタイムでロールバックすることで、より適応的な運用環境を実現する。この結果から,RLベースのモデル管理は,自動化を向上し,手作業による介入への依存を軽減し,デプロイ後のモデル障害に伴うリスクを軽減することが示唆された。
論文参考訳（メタデータ） (2025-03-28T16:42:21Z)
Look Before Leap: Look-Ahead Planning with Uncertainty in Reinforcement Learning [4.902161835372679]
モデルに基づく探索計画を用いた不確実性を考慮したポリシー最適化のための新しいフレームワークを提案する。政策最適化フェーズでは、不確実性駆動型探索政策を活用し、多様なトレーニングサンプルを積極的に収集する。我々のアプローチは、様々な状態/行動空間と報酬構造を持つタスクに柔軟性と適用性を提供します。
論文参考訳（メタデータ） (2025-03-26T01:07:35Z)
A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文参考訳（メタデータ） (2025-03-12T08:45:15Z)
Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations [1.5723316845301678]
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。機械学習モデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
論文参考訳（メタデータ） (2024-08-30T14:15:48Z)
Unstoppable Attack: Label-Only Model Inversion via Conditional Diffusion Model [14.834360664780709]
モデルアタック(MIA)は、深層学習モデルの到達不可能なトレーニングセットからプライベートデータを復元することを目的としている。そこで本研究では,条件拡散モデル(CDM)を応用したMIA手法を開発し,対象ラベル下でのサンプルの回収を行う。実験結果から,本手法は従来手法よりも高い精度で類似したサンプルをターゲットラベルに生成できることが示唆された。
論文参考訳（メタデータ） (2023-07-17T12:14:24Z)
Surrogate uncertainty estimation for your time series forecasting black-box: learn when to trust [2.0393477576774752]
本研究では不確実性推定手法を紹介する。妥当な不確実性推定を伴うベース回帰モデルを強化する。各種時系列予測データを用いて, 代理モデルに基づく手法により, 精度の高い信頼区間が得られることがわかった。
論文参考訳（メタデータ） (2023-02-06T14:52:56Z)
Exploring validation metrics for offline model-based optimisation with diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文参考訳（メタデータ） (2022-11-19T16:57:37Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。 CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文参考訳（メタデータ） (2021-12-16T15:33:11Z)
On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文参考訳（メタデータ） (2021-11-16T15:24:59Z)
Evaluating model-based planning and planner amortization for continuous control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文参考訳（メタデータ） (2021-10-07T12:00:40Z)
Sample Efficient Reinforcement Learning via Model-Ensemble Exploration and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文参考訳（メタデータ） (2021-07-05T07:18:20Z)
VAE-LIME: Deep Generative Model Based Approach for Local Data-Driven Model Interpretability Applied to the Ironmaking Industry [70.10343492784465]
モデル予測だけでなく、その解釈可能性も、プロセスエンジニアに公開する必要があります。 LIMEに基づくモデルに依存しない局所的解釈可能性ソリューションが最近出現し、元の手法が改良された。本稿では, 燃焼炉で生成する高温金属の温度を推定するデータ駆動型モデルの局所的解釈可能性に関する新しいアプローチ, VAE-LIMEを提案する。
論文参考訳（メタデータ） (2020-07-15T07:07:07Z)
Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-16T15:10:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。