Fugu-MT 論文翻訳(概要): Privacy Preserving Reinforcement Learning with One-Sided Feedback

論文の概要: Privacy Preserving Reinforcement Learning with One-Sided Feedback

arxiv url: http://arxiv.org/abs/2605.18246v1
Date: Mon, 18 May 2026 11:41:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:49.501801
Title: Privacy Preserving Reinforcement Learning with One-Sided Feedback
Title（参考訳）: ワンサイドフィードバックによる強化学習のためのプライバシ保護
Authors: Lin William Cong, Guangyan Gan, Hanzhang Qin, Zhenzhen Yan,
Abstract要約: 本研究では,多次元連続状態と行動空間における強化学習を一方のフィードバックで検討する。この設定は、学習効率とプライバシ保護に重大な課題をもたらす。これらの課題に対処するため,新しいプライバシ保存型RLアルゴリズムPOOLを提案する。
参考スコア（独自算出の注目度）: 3.4982037884940094
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study reinforcement learning (RL) in multi-dimensional continuous state and action spaces with one-sided feedback, where the agent receives partial observations of the state and obtains reward information for only a subset of the state-action space at each time step. This setting introduces substantial challenges in both learning efficiency and privacy preservation. To address these challenges, we propose POOL, a novel privacy-preserving RL algorithm. We conduct a comprehensive theoretical analysis of POOL, deriving a sample complexity bound that matches the known lower bounds for non-private RL. Here, E_rho denotes the privacy parameter, H is the time horizon, and alpha is the optimality-gap parameter. Our findings show that it is possible to enforce strong privacy guarantees while maintaining high learning efficiency, marking a significant step toward practical, privacy-aware RL in multi-dimensional environments with one-sided feedback.
Abstract（参考訳）: 本研究では,多次元連続状態および作用空間における強化学習(RL)を一方的なフィードバックで研究し,エージェントが状態の部分的な観察を受け、各段階における状態-作用空間のサブセットのみに対する報酬情報を得る。この設定は、学習効率とプライバシー保護の両方において重大な課題をもたらす。これらの課題に対処するため,新しいプライバシ保存型RLアルゴリズムPOOLを提案する。我々はPOOLの包括的理論的解析を行い、非プライベートなRLの既知の下界と一致するサンプル複雑性境界を導出する。ここで、E_rhoはプライバシーパラメータを示し、Hは時間水平線、αは最適性ギャップパラメータである。その結果, 高い学習効率を維持しつつ, 強力なプライバシ保証を強制することは可能であり, 多次元環境における実用的, プライバシを意識したRLへの重要な一歩であることがわかった。

関連論文リスト

A Novel Approach to Differential Privacy with Alpha Divergence [3.289248622896901]
アルファ・イテレーション・ディファレンシャル・プライバシ(ADP)は,アルファ・ディバイジェンスを基盤とした革新的なプライバシ・フレームワークである。本研究は、ADPの理論的基盤を概説し、その性能を競合するプライバシーフレームワークと対比する。提案手法は, プライバシー保護法を著しく改善し, 現代のデータ解析問題に対する柔軟な解決策を提供する。
論文参考訳（メタデータ） (2025-06-20T14:10:18Z)
Convergent Differential Privacy Analysis for General Federated Learning: the $f$-DP Perspective [57.35402286842029]
フェデレートラーニング(Federated Learning, FL)は、ローカルプライバシを重視した効率的な協調トレーニングパラダイムである。ディファレンシャルプライバシ(DP)は、私的保護の信頼性を捕捉し、保証するための古典的なアプローチである。
論文参考訳（メタデータ） (2024-08-28T08:22:21Z)
The Effect of Quantization in Federated Learning: A Rényi Differential Privacy Perspective [15.349042342071439]
フェデレートラーニング(FL)は、分散データを使用したプライバシ保護機械学習を大いに約束する新興パラダイムである。プライバシーを強化するために、FLはモデルの重み付けにガウスノイズを加えることを含む差分プライバシー(DP)と組み合わせることができる。本研究では,FLシステムにおける量子化がプライバシに与える影響について検討する。
論文参考訳（メタデータ） (2024-05-16T13:50:46Z)
TernaryVote: Differentially Private, Communication Efficient, and Byzantine Resilient Distributed Optimization on Heterogeneous Data [50.797729676285876]
本稿では, 3次圧縮機と多数決機構を組み合わせて, 差分プライバシー, 勾配圧縮, ビザンチンレジリエンスを同時に実現するternaryVoteを提案する。提案アルゴリズムのF差分プライバシー(DP)とビザンチンレジリエンスのレンズによるプライバシー保証を理論的に定量化する。
論文参考訳（メタデータ） (2024-02-16T16:41:14Z)
Theoretically Principled Federated Learning for Balancing Privacy and Utility [61.03993520243198]
モデルパラメータを歪ませることでプライバシを保護する保護機構の一般学習フレームワークを提案する。フェデレートされた学習における各コミュニケーションラウンドにおいて、各クライアント上の各モデルパラメータに対して、パーソナライズされたユーティリティプライバシトレードオフを実現することができる。
論文参考訳（メタデータ） (2023-05-24T13:44:02Z)
Is Vertical Logistic Regression Privacy-Preserving? A Comprehensive Privacy Analysis and Beyond [57.10914865054868]
垂直ロジスティック回帰(VLR)をミニバッチ降下勾配で訓練した。我々は、オープンソースのフェデレーション学習フレームワークのクラスにおいて、VLRの包括的で厳密なプライバシー分析を提供する。
論文参考訳（メタデータ） (2022-07-19T05:47:30Z)
Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2020-09-18T20:18:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。