論文の概要: Deceptive Kernel Function on Observations of Discrete POMDP
- arxiv url: http://arxiv.org/abs/2008.05585v1
- Date: Wed, 12 Aug 2020 21:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 05:24:14.261981
- Title: Deceptive Kernel Function on Observations of Discrete POMDP
- Title(参考訳): 離散POMDPの観察における知覚カーネル機能
- Authors: Zhili Zhang and Quanyan Zhu
- Abstract要約: 離散POMDPにおけるエージェントの観察に応用した, 擬似カーネル関数(カーネル)を提案する。
我々は、カーネルの出力としてファルシフィケートされた観察によって誤解されるその信念を分析し、エージェントの報酬やその他のパフォーマンスに対する潜在的な脅威を予想する。
- 参考スコア(独自算出の注目度): 34.32166929236478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the deception applied on agent in a partially observable
Markov decision process. We introduce deceptive kernel function (the kernel)
applied to agent's observations in a discrete POMDP. Based on value iteration,
value function approximation and POMCP three characteristic algorithms used by
agent, we analyze its belief being misled by falsified observations as the
kernel's outputs and anticipate its probable threat on agent's reward and
potentially other performance. We validate our expectation and explore more
detrimental effects of the deception by experimenting on two POMDP problems.
The result shows that the kernel applied on agent's observation can affect its
belief and substantially lower its resulting rewards; meantime certain
implementation of the kernel could induce other abnormal behaviors by the
agent.
- Abstract(参考訳): 本稿では, 部分的に観察可能なマルコフ決定過程において, エージェントに適用されるデセプションについて検討する。
離散POMDPにおけるエージェントの観察に応用した, 擬似カーネル関数(カーネル)を提案する。
エージェントが使用する値反復法、値関数近似法、pomcp3特性アルゴリズムに基づき、その信念をカーネルの出力として偽の観察によって誤解し、エージェントの報酬や潜在的性能に対する潜在的な脅威を予測する。
我々は,2つのPOMDP問題に対して実験を行うことで,我々の期待を検証し,詐欺のより有害な影響を探る。
その結果、エージェントの観察に適用されるカーネルは、その信念に影響を与え、結果として得られる報酬を実質的に低下させることができる。
関連論文リスト
- On Multi-Agent Inverse Reinforcement Learning [8.284137254112848]
Inverse Reinforcement Learning (IRL) フレームワークを多エージェント設定に拡張し、Nash Equilibrium (NE) ポリシーに従うエージェントを観察する。
本稿では,現実的な報酬セットを明示的に評価し,移行ダイナミクスや専門家の行動が報酬にどのように影響するかを推定する。
論文 参考訳(メタデータ) (2024-11-22T16:31:36Z) - An Overview of Causal Inference using Kernel Embeddings [14.298666697532838]
カーネル埋め込みは、様々な統計的推論問題における確率測度を表現する強力なツールとして登場した。
主な課題は、因果関係を特定し、観測データから平均的な治療効果を推定することである。
論文 参考訳(メタデータ) (2024-10-30T07:23:34Z) - How to Exhibit More Predictable Behaviors [3.5248694676821484]
本稿では,外部オブザーバが行うことができる予測を最適化するために,エージェントがその戦略を選択する必要がある予測可能性問題について考察する。
環境力学や観察対象者の政策について不確実性を考慮して検討する。
本稿では,エージェントポリシーに対するオブザーバの信念に基づいて,報酬関数を用いた行動予測可能性評価基準を提案する。
論文 参考訳(メタデータ) (2024-04-17T12:06:17Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Coalitional Bayesian Autoencoders -- Towards explainable unsupervised
deep learning [78.60415450507706]
その結果,BAEの予測は高い相関関係にあり,誤解を招くことが示唆された。
これを軽減するために、エージェントベースのシステム理論にインスパイアされた"Coalitional BAE"が提案されている。
公開条件監視データセットに関する実験は、Coalitional BAEを用いた説明の質の向上を実証している。
論文 参考訳(メタデータ) (2021-10-19T15:07:09Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Estimating Treatment Effects with Observed Confounders and Mediators [25.338901482522648]
因果グラフが与えられた場合、do-calculusは経験的に推定できる観察関節分布の関数として治療効果を表現することができる。
時折、do-calculusは複数の有効な公式を識別し、対応する推定器の統計特性を比較するように促す。
本稿では,共同創設者と仲介者の両方が観察される過度に同定されたシナリオについて検討し,両推定手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-03-26T15:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。