論文の概要: PrivORL: Differentially Private Synthetic Dataset for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.07342v2
- Date: Tue, 16 Dec 2025 02:17:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 14:48:05.893522
- Title: PrivORL: Differentially Private Synthetic Dataset for Offline Reinforcement Learning
- Title(参考訳): PrivORL:オフライン強化学習のための微分プライベートな合成データセット
- Authors: Chen Gong, Zheng Liu, Kecen Li, Tianhao Wang,
- Abstract要約: そこで本研究では,プライバシのオフラインデータセット生成手法PrivORLを提案する。
本手法は, DP遷移および軌道合成において, ベースラインよりも有効性と忠実性が高い。
レプリケーションパッケージはGitHubリポジトリから入手可能だ。
- 参考スコア(独自算出の注目度): 16.24143121404642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, offline reinforcement learning (RL) has become a popular RL paradigm. In offline RL, data providers share pre-collected datasets -- either as individual transitions or sequences of transitions forming trajectories -- to enable the training of RL models (also called agents) without direct interaction with the environments. Offline RL saves interactions with environments compared to traditional RL, and has been effective in critical areas, such as navigation tasks. Meanwhile, concerns about privacy leakage from offline RL datasets have emerged. To safeguard private information in offline RL datasets, we propose the first differential privacy (DP) offline dataset synthesis method, PrivORL, which leverages a diffusion model and diffusion transformer to synthesize transitions and trajectories, respectively, under DP. The synthetic dataset can then be securely released for downstream analysis and research. PrivORL adopts the popular approach of pre-training a synthesizer on public datasets, and then fine-tuning on sensitive datasets using DP Stochastic Gradient Descent (DP-SGD). Additionally, PrivORL introduces curiosity-driven pre-training, which uses feedback from the curiosity module to diversify the synthetic dataset and thus can generate diverse synthetic transitions and trajectories that closely resemble the sensitive dataset. Extensive experiments on five sensitive offline RL datasets show that our method achieves better utility and fidelity in both DP transition and trajectory synthesis compared to baselines. The replication package is available at the GitHub repository.
- Abstract(参考訳): 近年,オフライン強化学習(RL)がRLパラダイムとして普及している。
オフラインのRLでは、データプロバイダは、個々のトランジッションまたはトランジトリを構成するトランジッションのシーケンスとして、事前に収集されたデータセットを共有して、環境と直接対話することなく、RLモデル(エージェントとも呼ばれる)のトレーニングを可能にする。
オフラインRLは従来のRLと比較して環境とのインタラクションを節約し、ナビゲーションタスクのような重要な領域で有効である。
一方、オフラインのRLデータセットからのプライバシー漏洩に関する懸念が浮上している。
オフラインRLデータセットにおけるプライベート情報を保護するために,拡散モデルと拡散トランスフォーマを利用した最初の差分プライバシー(DP)オフラインデータセット合成法であるPrivORLを提案する。
合成データセットは、下流の分析と研究のために安全にリリースすることができる。
PrivORLは、パブリックデータセット上でシンセサイザーを事前トレーニングする一般的なアプローチを採用し、DP Stochastic Gradient Descent (DP-SGD)を使用して機密データセットを微調整する。
さらに、PrivORLは好奇心駆動型事前トレーニングを導入し、好奇心モジュールからのフィードバックを使って合成データセットを多様化し、敏感なデータセットによく似た多様な合成トランジションや軌道を生成することができる。
5つのオフラインRLデータセットに対する大規模な実験により,本手法はベースラインに比べてDP遷移と軌道合成の両面で有効性と忠実性が高いことがわかった。
レプリケーションパッケージはGitHubリポジトリから入手可能だ。
関連論文リスト
- Synthetic Data is Sufficient for Zero-Shot Visual Generalization from Offline Data [22.840912154067325]
オフラインデータで訓練されたポリシーは、様々な州への限られた露出のために、しばしば一般化に苦しむ。
これにより、見えない環境に一般化可能な堅牢なエージェントのトレーニングにおいて、視覚ベースのオフラインデータを活用することが難しくなる。
2段階のプロセスを提案し、まず最初に収集したオフラインデータを拡大し、多様性を導入してゼロショット一般化を改善し、次に拡散モデルを用いて遅延空間に付加的なデータを生成する。
論文 参考訳(メタデータ) (2025-08-17T13:01:15Z) - Goal-Conditioned Data Augmentation for Offline Reinforcement Learning [9.181158786602085]
Goal-cOnditioned Data Augmentation (GODA) は、ゴール条件付き拡散法である。
GODAは、元のオフラインデータセットの包括的な分布表現を学習し、選択的に高いリターン目標を持つ新しいデータを生成する。
我々は,D4RLベンチマークと実世界の課題,特に交通信号制御(TSC)タスクについて実験を行い,GODAの有効性を実証する。
論文 参考訳(メタデータ) (2024-12-29T16:42:30Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Offline Trajectory Optimization for Offline Reinforcement Learning [42.306438854850434]
オフライン強化学習は オンライン調査なしで 政策を学ぶことを目的としています
オフラインRLのための既存のデータ拡張手法は、(i)短期水平シミュレーションによる自明な改善に悩まされている。
オフライン強化学習(OTTO)のためのオフライン軌道最適化を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:48:46Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Synthetic Experience Replay [48.601879260071655]
エージェントの収集した経験を柔軟にアップサンプリングするための拡散に基づくアプローチであるSynthetic Experience Replay(SynthER)を提案する。
SynthERはオフラインおよびオンライン設定におけるRLエージェントのトレーニングに有効な方法であることを示す。
我々は、限られたデータからリプレイベースのRLアルゴリズムの深層学習の可能性を実現するために、合成トレーニングデータが扉を開くことができると信じている。
論文 参考訳(メタデータ) (2023-03-12T09:10:45Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。