論文の概要: Deceptive Reinforcement Learning for Privacy-Preserving Planning
- arxiv url: http://arxiv.org/abs/2102.03022v1
- Date: Fri, 5 Feb 2021 06:50:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 14:47:57.880830
- Title: Deceptive Reinforcement Learning for Privacy-Preserving Planning
- Title(参考訳): プライバシー保護計画のための偽装強化学習
- Authors: Zhengshang Liu, Yue Yang, Tim Miller, and Peta Masters
- Abstract要約: 強化学習は、探索行動から得られる報酬に基づいて行動ポリシーを見つける問題である。
強化学習の鍵となる要素は報酬関数であり、報酬(負または正の)が与えられるか、いつ与えられるかを決定する。
プライバシー保護強化学習の課題を解決するための2つのモデルを提案する。
- 参考スコア(独自算出の注目度): 8.950168559003991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the problem of deceptive reinforcement learning to
preserve the privacy of a reward function. Reinforcement learning is the
problem of finding a behaviour policy based on rewards received from
exploratory behaviour. A key ingredient in reinforcement learning is a reward
function, which determines how much reward (negative or positive) is given and
when. However, in some situations, we may want to keep a reward function
private; that is, to make it difficult for an observer to determine the reward
function used. We define the problem of privacy-preserving reinforcement
learning, and present two models for solving it. These models are based on
dissimulation -- a form of deception that `hides the truth'. We evaluate our
models both computationally and via human behavioural experiments. Results show
that the resulting policies are indeed deceptive, and that participants can
determine the true reward function less reliably than that of an honest agent.
- Abstract(参考訳): 本稿では,報酬関数のプライバシを保護するために,偽り強化学習の問題について検討する。
強化学習は、探索行動から受け取った報酬に基づいて行動政策を見つけることの問題です。
強化学習の鍵となる要素は報酬関数であり、その報酬(負か正か)が与えられ、いつ与えられるかを決定する。
ただし、場合によっては、報酬関数をプライベートに保ちたい場合もあります。つまり、オブザーバーが使用する報酬関数を決定するのを困難にします。
プライバシー保護強化学習の課題を定義し,その解決のための2つのモデルを提示する。
これらのモデルは「真実を隠す」偽装の形式である解読に基づいています。
モデルの評価は、計算と人間の行動実験の両方を通して行う。
その結果, 結果は, 結果が真偽であり, 参加者が真報酬関数を正直なエージェントよりも確実に決定できることが示唆された。
関連論文リスト
- Deceptive Sequential Decision-Making via Regularized Policy Optimization [54.38738815697299]
システムの基本的報酬に対する敵意を積極的に欺く政策合成問題に対する2つの正則化戦略を提示する。
政策最適化問題において,各形態の騙しをいかに実装できるかを示す。
ディバータリーの詐欺は、最も重要なエージェントが最重要であると敵に信じさせ、同時に、その最適で非知覚的な価値の980.83%の合計的な報酬を得ることを示せる。
論文 参考訳(メタデータ) (2025-01-30T23:41:40Z) - Multi Task Inverse Reinforcement Learning for Common Sense Reward [21.145179791929337]
エージェントの訓練に成功しても、逆強化学習は有用な報酬関数を学習しないことを示す。
すなわち、学習した報酬で新しいエージェントを訓練しても、望ましい振る舞いを損なうことはない。
すなわち、多タスク逆強化学習を応用して、有用な報酬関数を学習することができる。
論文 参考訳(メタデータ) (2024-02-17T19:49:00Z) - On The Fragility of Learned Reward Functions [4.826574398803286]
好意に基づく報酬学習の領域における再学習失敗の原因について検討した。
本研究は,文献における再学習に基づく評価の必要性を強調した。
論文 参考訳(メタデータ) (2023-01-09T19:45:38Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Causal Confusion and Reward Misidentification in Preference-Based Reward
Learning [33.944367978407904]
選好から学習する際の因果的混乱と報酬的誤認について検討した。
その結果,非因果的障害の特徴,優先条件のノイズ,部分的状態観察性の存在が,報酬の誤認を悪化させることが判明した。
論文 参考訳(メタデータ) (2022-04-13T18:41:41Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Understanding Learned Reward Functions [6.714172005695389]
学習報酬関数の解釈手法を検討する。
特に、障害モードを特定し、報酬関数の堅牢性を予測するために、サリペンシーメソッドを適用します。
学習報酬関数は、環境の偶発的な側面に依存する驚くべきアルゴリズムをしばしば実装する。
論文 参考訳(メタデータ) (2020-12-10T18:19:48Z) - Counterfactual Credit Assignment in Model-Free Reinforcement Learning [47.79277857377155]
強化学習における信用割当は、将来の報酬に対する行動の影響を測定する問題である。
我々は因果理論からモデルフリーなRL設定への反事実の概念を適応する。
我々は、将来の条件値関数をベースラインや批評家として使用するポリシーアルゴリズムのファミリーを定式化し、それらが明らかに低分散であることを示す。
論文 参考訳(メタデータ) (2020-11-18T18:41:44Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。