論文の概要: Relative Entropy Regularized Reinforcement Learning for Efficient Encrypted Policy Synthesis
- arxiv url: http://arxiv.org/abs/2506.12358v1
- Date: Sat, 14 Jun 2025 05:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.90853
- Title: Relative Entropy Regularized Reinforcement Learning for Efficient Encrypted Policy Synthesis
- Title(参考訳): 効率的な暗号ポリシー合成のための相対エントロピー正規化強化学習
- Authors: Jihoon Suh, Yeongjun Jang, Kaoru Teranishi, Takashi Tanaka,
- Abstract要約: プライバシー保護モデルに基づく強化学習を開発するために,効率的な暗号化ポリシ合成を提案する。
まず、相対エントロピー規則化強化学習フレームワークは、計算に便利な線形構造と最小自由構造を提供することを示した。
その結果、暗号化ポリシ合成のためのFHE統合におけるRERLフレームワークの有効性が示された。
- 参考スコア(独自算出の注目度): 0.6249768559720122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an efficient encrypted policy synthesis to develop privacy-preserving model-based reinforcement learning. We first demonstrate that the relative-entropy-regularized reinforcement learning framework offers a computationally convenient linear and ``min-free'' structure for value iteration, enabling a direct and efficient integration of fully homomorphic encryption with bootstrapping into policy synthesis. Convergence and error bounds are analyzed as encrypted policy synthesis propagates errors under the presence of encryption-induced errors including quantization and bootstrapping. Theoretical analysis is validated by numerical simulations. Results demonstrate the effectiveness of the RERL framework in integrating FHE for encrypted policy synthesis.
- Abstract(参考訳): プライバシー保護モデルに基づく強化学習を開発するために,効率的な暗号化ポリシ合成を提案する。
まず、相対エントロピー規則化強化学習フレームワークは、計算に便利な線形構造と 'min-free'' 構造を価値反復に提供し、完全同型暗号とブートストラップの直接的かつ効率的な統合を可能にすることを実証した。
暗号化ポリシ合成は、量子化やブートストラップを含む暗号化誘起エラーの存在下でエラーを伝播するので、収束とエラー境界を解析する。
理論的解析は数値シミュレーションによって検証される。
その結果、暗号化ポリシ合成のためのFHE統合におけるRERLフレームワークの有効性が示された。
関連論文リスト
- Efficient Implementation of Reinforcement Learning over Homomorphic Encryption [0.7673339435080445]
制御ポリシ合成をモデルベース,シミュレータ駆動,データ駆動のアプローチに分類する。
プライバシー強化のための完全同型暗号(FHE)の実装について検討する。
私たちの研究は、セキュアで効率的なクラウドベースの強化学習の可能性を示している。
論文 参考訳(メタデータ) (2025-04-12T20:34:26Z) - RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。
AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。
サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-03-25T12:52:38Z) - Towards Theoretical Understanding of Data-Driven Policy Refinement [0.0]
本稿では、特に安全クリティカルなアプリケーションのために設計された強化学習におけるデータ駆動型ポリシー改善のアプローチを提案する。
我々の主な貢献は、このデータ駆動政策改善の概念の数学的定式化にある。
我々は、収束性、ロバスト性境界、一般化誤差、モデルミスマッチに対するレジリエンスなど、我々のアプローチの重要な理論的性質を解明する一連の定理を提示する。
論文 参考訳(メタデータ) (2023-05-11T13:36:21Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z) - Deep synthesis regularization of inverse problems [0.0]
本稿では,非線形合成演算子としてニューラルネットワークを用いた深部合成正則化(DESYRE)を提案する。
提案手法は、利用可能なトレーニングデータに対して十分に調整可能な深層学習の利点を利用することができる。
本稿では,解析合成シーケンスの一部として,適切な学習戦略とともに合成ネットワークを構築するための戦略を提案する。
論文 参考訳(メタデータ) (2020-02-01T06:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。