論文の概要: Deceptive Reinforcement Learning in Model-Free Domains
- arxiv url: http://arxiv.org/abs/2303.10838v1
- Date: Mon, 20 Mar 2023 02:47:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:59:57.489597
- Title: Deceptive Reinforcement Learning in Model-Free Domains
- Title(参考訳): モデル自由領域における知覚強化学習
- Authors: Alan Lewis and Tim Miller
- Abstract要約: 敵のシナリオでは、エージェントは報酬を最大化し、報酬関数をオブザーバーからプライベートにしておく必要がある。
近年の研究では、報酬関数の集合に対して曖昧な行動を選択するあいまいさモデル(AM)が提案されている。
本稿では,認知的探索あいまいさモデル (DEAM) を提案する。
- 参考スコア(独自算出の注目度): 4.452019519213712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates deceptive reinforcement learning for privacy
preservation in model-free and continuous action space domains. In
reinforcement learning, the reward function defines the agent's objective. In
adversarial scenarios, an agent may need to both maximise rewards and keep its
reward function private from observers. Recent research presented the ambiguity
model (AM), which selects actions that are ambiguous over a set of possible
reward functions, via pre-trained $Q$-functions. Despite promising results in
model-based domains, our investigation shows that AM is ineffective in
model-free domains due to misdirected state space exploration. It is also
inefficient to train and inapplicable in continuous action space domains. We
propose the deceptive exploration ambiguity model (DEAM), which learns using
the deceptive policy during training, leading to targeted exploration of the
state space. DEAM is also applicable in continuous action spaces. We evaluate
DEAM in discrete and continuous action space path planning environments. DEAM
achieves similar performance to an optimal model-based version of AM and
outperforms a model-free version of AM in terms of path cost, deceptiveness and
training efficiency. These results extend to the continuous domain.
- Abstract(参考訳): 本稿では,モデルフリーおよび連続的な行動空間領域におけるプライバシー保護のための欺きの強化学習について検討する。
強化学習では、報酬関数はエージェントの目的を定義する。
敵のシナリオでは、エージェントは報酬を最大化し、報酬関数をオブザーバーからプライベートに保つ必要がある。
最近の研究では、事前訓練された$Q$-functionsを介して、可能性のある報酬関数の集合に対して曖昧なアクションを選択するアンビグニティモデル(AM)が提案されている。
モデルベースドメインでは有望な結果が得られたが,本研究は,非方向性の空間探索により,AMがモデルフリードメインでは有効でないことを示した。
また、連続的なアクション空間領域で訓練し、適用できないことも非効率である。
本研究は, 教育訓練中に騙し政策を用いて学習し, 対象とする国家空間の探索に繋がる疑似探索曖昧性モデル(deam)を提案する。
DEAMは連続的なアクション空間にも適用できる。
離散的かつ連続的な行動空間経路計画環境におけるDEAMの評価を行った。
DEAMはAMの最適モデルベースバージョンと同等の性能を達成し、パスコスト、偽装性、訓練効率の点でAMのモデルフリーバージョンを上回っている。
これらの結果は連続領域にまで及ぶ。
関連論文リスト
- Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Imitation from Observation With Bootstrapped Contrastive Learning [12.048166025000976]
IfO(IfO)は、マルコフ決定プロセスにおいて自律エージェントを訓練する学習パラダイムである。
本稿では,OfOアルゴリズムであるBootIfOLについて紹介する。
我々は,限られた数の実証軌道を用いて効果的な政策を訓練できることを示す,様々な制御タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-02-13T17:32:17Z) - CostNet: An End-to-End Framework for Goal-Directed Reinforcement
Learning [9.432068833600884]
強化学習(Reinforcement Learning, RL)は、環境における報酬の最大化を目指すエージェントに関する一般的なフレームワークである。
モデルベースとモデルフリー強化学習の2つのアプローチがあり、いくつかの分野において具体的な結果を示している。
本稿ではマルコフ決定過程における2つの状態間の距離を予測するための新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:16:14Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Adversarial Intrinsic Motivation for Reinforcement Learning [60.322878138199364]
政策状態の訪問分布と目標分布とのワッサースタイン-1距離が強化学習タスクに有効に活用できるかどうかを検討する。
我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。
論文 参考訳(メタデータ) (2021-05-27T17:51:34Z) - UDALM: Unsupervised Domain Adaptation through Language Modeling [79.73916345178415]
複合分類とマスキング言語モデル損失を用いた微調整手順であるUDALMについて紹介します。
本実験では, 混合損失スケールと利用可能な目標データの量で訓練されたモデルの性能を, 停止基準として有効に用いることを示した。
この方法は、amazon reviewsセンチメントデータセットの12のドメインペアで評価され、9.1.74%の精度が得られ、最先端よりも1.11%の絶対的な改善が得られます。
論文 参考訳(メタデータ) (2021-04-14T19:05:01Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Reinforcement Learning for Robust Missile Autopilot Design [0.0]
この研究は、飛行制御のフレームワークとして強化学習を提案する先駆者である。
TRPOの手法では、収集されたエクスペリエンスはHERに従って拡張され、リプレイバッファに格納され、その重要性に応じてサンプリングされる。
その結果、最適な性能を達成し、不確実性に対するエージェントの堅牢性を改善することが可能であることがわかった。
論文 参考訳(メタデータ) (2020-11-26T09:30:04Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。