論文の概要: ORL-AUDITOR: Dataset Auditing in Offline Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2309.03081v1
- Date: Wed, 6 Sep 2023 15:28:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 14:57:11.901228
- Title: ORL-AUDITOR: Dataset Auditing in Offline Deep Reinforcement Learning
- Title(参考訳): ORL-AUDITOR:オフライン深層強化学習におけるデータセット監査
- Authors: Linkang Du, Min Chen, Mingyang Sun, Shouling Ji, Peng Cheng, Jiming
Chen, Zhikun Zhang
- Abstract要約: オフラインの深層強化学習(オフラインDRL)は、事前にコンパイルされたデータセットのモデルをトレーニングするために頻繁に使用される。
オフラインDRLシナリオを対象とした最初のトラジェクトリレベルのデータセット監査機構であるORL-AUDITORを提案する。
複数のオフラインDRLモデルとタスクに対する実験により、監査精度が95%以上、偽陽性率が2.88%未満であるORL-AUDITORの有効性が示された。
- 参考スコア(独自算出の注目度): 42.87245000172943
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data is a critical asset in AI, as high-quality datasets can significantly
improve the performance of machine learning models. In safety-critical domains
such as autonomous vehicles, offline deep reinforcement learning (offline DRL)
is frequently used to train models on pre-collected datasets, as opposed to
training these models by interacting with the real-world environment as the
online DRL. To support the development of these models, many institutions make
datasets publicly available with opensource licenses, but these datasets are at
risk of potential misuse or infringement. Injecting watermarks to the dataset
may protect the intellectual property of the data, but it cannot handle
datasets that have already been published and is infeasible to be altered
afterward. Other existing solutions, such as dataset inference and membership
inference, do not work well in the offline DRL scenario due to the diverse
model behavior characteristics and offline setting constraints. In this paper,
we advocate a new paradigm by leveraging the fact that cumulative rewards can
act as a unique identifier that distinguishes DRL models trained on a specific
dataset. To this end, we propose ORL-AUDITOR, which is the first
trajectory-level dataset auditing mechanism for offline RL scenarios. Our
experiments on multiple offline DRL models and tasks reveal the efficacy of
ORL-AUDITOR, with auditing accuracy over 95% and false positive rates less than
2.88%. We also provide valuable insights into the practical implementation of
ORL-AUDITOR by studying various parameter settings. Furthermore, we demonstrate
the auditing capability of ORL-AUDITOR on open-source datasets from Google and
DeepMind, highlighting its effectiveness in auditing published datasets.
ORL-AUDITOR is open-sourced at https://github.com/link-zju/ORL-Auditor.
- Abstract(参考訳): 高品質なデータセットは機械学習モデルの性能を大幅に向上させることができるため、データはAIにおいて重要な資産である。
自動運転車のような安全クリティカルな領域では、オフラインの深層学習(オフラインDRL)が、オンラインDRLとして現実の環境と対話することによってこれらのモデルをトレーニングするのとは対照的に、事前に収集したデータセット上でモデルをトレーニングするために頻繁に使用される。
これらのモデルの開発をサポートするため、多くの機関はデータセットをオープンソースライセンスで公開しているが、これらのデータセットは誤用や侵害の恐れがある。
データセットにウォーターマークを注入することは、データの知的財産を保護できるが、すでに公開されており、その後変更できないデータセットを扱うことはできない。
データセット推論やメンバシップ推論といった既存のソリューションは、さまざまなモデル振る舞い特性とオフライン設定制約のため、オフラインDRLシナリオではうまく機能しない。
本稿では、累積報酬が特定のデータセット上で訓練されたDRLモデルを識別するユニークな識別子として機能するという事実を活用して、新しいパラダイムを提唱する。
この目的のために、オフラインRLシナリオのための最初の軌道レベルのデータセット監査機構であるORL-AUDITORを提案する。
複数のオフラインDRLモデルとタスクに対する実験により、監査精度が95%以上、偽陽性率が2.88%未満であるORL-AUDITORの有効性が示された。
また,ORL-AUDITORの実践的実装について,様々なパラメータ設定を研究することで,貴重な知見を提供する。
さらに,GoogleとDeepMindのオープンソースデータセットに対するORL-AUDITORの監査機能についても紹介し,公開データセットの監査の有効性を強調した。
ORL-AUDITORはhttps://github.com/link-zju/ORL-Auditorでオープンソース化されている。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Utilizing Explainability Techniques for Reinforcement Learning Model
Assurance [42.302469854610315]
説明可能な強化学習(XRL)は、深層強化学習(DRL)モデルの意思決定プロセスに透明性を提供する。
本稿では,オープンソースのPythonライブラリであるARLIN (Assured RL Model Interrogation) Toolkitを紹介する。
論文 参考訳(メタデータ) (2023-11-27T14:02:47Z) - Semi-Supervised Offline Reinforcement Learning with Action-Free
Trajectories [37.14064734165109]
自然エージェントは、サイズ、品質、種類の異なる複数のデータソースから学習することができる。
オフライン強化学習(RL)の文脈でこれを研究し、実際に動機付けされた半教師付き環境を導入する。
論文 参考訳(メタデータ) (2022-10-12T18:22:23Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。