論文の概要: Optimal Perturbation Budget Allocation for Data Poisoning in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.08485v2
- Date: Wed, 10 Dec 2025 07:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 13:10:24.481457
- Title: Optimal Perturbation Budget Allocation for Data Poisoning in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習におけるデータポジショニングのための最適摂動予算配分
- Authors: Junnan Qiu, Yuanjie Zhao, Jie Li,
- Abstract要約: オフライン強化学習(RL)は、静的データセットからのポリシー最適化を可能にするが、本質的にデータ中毒攻撃に対して脆弱である。
既存の攻撃戦略は通常、全てのサンプルを無差別に扱う局所的な均一な摂動に依存している。
このアプローチは、低インパクトサンプルの摂動予算を無駄にし、統計的に大きな違いがあるため、ステルス性を欠いているため、非効率である。
- 参考スコア(独自算出の注目度): 3.548727497699329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning (RL) enables policy optimization from static datasets but is inherently vulnerable to data poisoning attacks. Existing attack strategies typically rely on locally uniform perturbations, which treat all samples indiscriminately. This approach is inefficient, as it wastes the perturbation budget on low-impact samples, and lacks stealthiness due to significant statistical deviations. In this paper, we propose a novel Global Budget Allocation attack strategy. Leveraging the theoretical insight that a sample's influence on value function convergence is proportional to its Temporal Difference (TD) error, we formulate the attack as a global resource allocation problem. We derive a closed-form solution where perturbation magnitudes are assigned proportional to the TD-error sensitivity under a global L2 constraint. Empirical results on D4RL benchmarks demonstrate that our method significantly outperforms baseline strategies, achieving up to 80% performance degradation with minimal perturbations that evade detection by state-of-the-art statistical and spectral defenses.
- Abstract(参考訳): オフライン強化学習(RL)は、静的データセットからのポリシー最適化を可能にするが、本質的にデータ中毒攻撃に対して脆弱である。
既存の攻撃戦略は通常、全てのサンプルを無差別に扱う局所的な均一な摂動に依存している。
このアプローチは、低インパクトサンプルの摂動予算を無駄にし、統計的に大きな違いがあるため、ステルス性を欠いているため、非効率である。
本稿では,新たなグローバル・バジェット・アロケーション・アタック・ストラテジーを提案する。
サンプルの値関数収束に対する影響は時間差(TD)誤差に比例する理論的な洞察を生かし、この攻撃をグローバルリソース割り当て問題として定式化する。
我々は、大域的なL2制約の下でのTDエラー感度に比例して摂動の等級が割り当てられる閉形式解を導出する。
D4RLベンチマークによる実験結果から,提案手法はベースライン戦略を著しく上回り,現状の統計的・スペクトル防衛による検出を回避できる最小の摂動を伴って最大80%の性能劣化を達成できることが示された。
関連論文リスト
- Data-Efficient RLVR via Off-Policy Influence Guidance [84.60336960383867]
本研究は,学習目標に対する各データポイントの寄与を推定するために,影響関数を用いた理論的基礎的アプローチを提案する。
textbfCurriculum textbfRL with textbfOff-textbfPolicy textInfluence Guide (textbfCROPI) は多段階のRLフレームワークで、現在のポリシーにおいて最も影響力のあるデータを反復的に選択する。
論文 参考訳(メタデータ) (2025-10-30T13:40:52Z) - Distributionally Robust Optimization with Adversarial Data Contamination [49.89480853499918]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。
私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。
この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文 参考訳(メタデータ) (2025-07-14T18:34:10Z) - Sampling-aware Adversarial Attacks Against Large Language Models [52.30089653615172]
既存の敵攻撃は、通常、単一点の欲望世代において有害な反応を標的とする。
本研究では,有害な応答を抽出する目的のために,攻撃時のモデル出力の繰り返しサンプリングを行う。
既存の攻撃にサンプリングを統合することで、成功率が最大37%向上し、最大2桁の効率が向上することを示す。
論文 参考訳(メタデータ) (2025-07-06T16:13:33Z) - Collapsing Sequence-Level Data-Policy Coverage via Poisoning Attack in Offline Reinforcement Learning [12.068924459730248]
既存の研究は、分散シフトを軽減するためにデータ政治のカバレッジを改善することを目的としているが、不十分なカバレッジからセキュリティリスクを見落としている。
本稿では,範囲を定量化するためにシーケンスレベルの集中係数を導入し,その指数増幅を推定誤差の上限上で明らかにする。
カバー不足の原因となる稀なパターンを同定し, カバー範囲を減らし, 分布シフトを悪化させる。
論文 参考訳(メタデータ) (2025-06-12T07:11:27Z) - Rethinking Adversarial Attacks in Reinforcement Learning from Policy Distribution Perspective [17.812046299904576]
DAPGD(Dis Distribution-Aware Projected Gradient Descent attack)を提案する。
DAPGDは、ポリシーネットワークを攻撃するために勾配摂動入力として分布類似性を使用する。
実験の結果,DAPGDは3つのロボットナビゲーションタスクのベースラインと比較してSOTAを達成できた。
論文 参考訳(メタデータ) (2025-01-07T06:22:55Z) - Practical Performative Policy Learning with Strategic Agents [8.361090623217246]
本研究では,政策学習の課題について検討し,エージェントが提案した方針に応えて特徴を調整し,その潜在的な結果を改善する。
本稿では,高次元分布マップの代用として,微分可能な分類器を用いた勾配型ポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-02T10:09:44Z) - The Power and Limitation of Pretraining-Finetuning for Linear Regression
under Covariate Shift [127.21287240963859]
本研究では,対象データに基づく事前学習と微調整を併用した伝達学習手法について検討する。
大規模な線形回帰インスタンスの場合、$O(N2)$ソースデータによる転送学習は、$N$ターゲットデータによる教師あり学習と同じくらい効果的である。
論文 参考訳(メタデータ) (2022-08-03T05:59:49Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。