論文の概要: Deceptive Decision-Making Under Uncertainty
- arxiv url: http://arxiv.org/abs/2109.06740v1
- Date: Tue, 14 Sep 2021 14:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:37:27.652652
- Title: Deceptive Decision-Making Under Uncertainty
- Title(参考訳): 不確かさ下における認知的意思決定
- Authors: Yagiz Savas, Christos K. Verginis, Ufuk Topcu
- Abstract要約: タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。
エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
- 参考スコア(独自算出の注目度): 25.197098169762356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the design of autonomous agents that are capable of deceiving
outside observers about their intentions while carrying out tasks in
stochastic, complex environments. By modeling the agent's behavior as a Markov
decision process, we consider a setting where the agent aims to reach one of
multiple potential goals while deceiving outside observers about its true goal.
We propose a novel approach to model observer predictions based on the
principle of maximum entropy and to efficiently generate deceptive strategies
via linear programming. The proposed approach enables the agent to exhibit a
variety of tunable deceptive behaviors while ensuring the satisfaction of
probabilistic constraints on the behavior. We evaluate the performance of the
proposed approach via comparative user studies and present a case study on the
streets of Manhattan, New York, using real travel time distributions.
- Abstract(参考訳): 確率的で複雑な環境でタスクを遂行しながら、観察者の意図を判断できる自律エージェントの設計について検討する。
マルコフ決定過程としてエージェントの振る舞いをモデル化することにより、エージェントがその真のゴールについて外部のオブザーバーを欺きながら、複数の潜在的な目標の1つに到達しようとする設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,線形プログラミングによる認識戦略を効率的に生成する手法を提案する。
提案手法により, エージェントは, 行動に対する確率的制約の満足度を確保しつつ, 様々な調律可能な抑止行動を示すことができる。
提案手法の性能を比較研究を通して評価し,実旅行時間分布を用いてニューヨーク州マンハッタンの街路を事例として報告する。
関連論文リスト
- How to Exhibit More Predictable Behaviors [3.5248694676821484]
本稿では,外部オブザーバが行うことができる予測を最適化するために,エージェントがその戦略を選択する必要がある予測可能性問題について考察する。
環境力学や観察対象者の政策について不確実性を考慮して検討する。
本稿では,エージェントポリシーに対するオブザーバの信念に基づいて,報酬関数を用いた行動予測可能性評価基準を提案する。
論文 参考訳(メタデータ) (2024-04-17T12:06:17Z) - Covert Planning against Imperfect Observers [29.610121527096286]
カバー・プランニング(英: Covert Planning)とは、エージェントが受動的オブザーバに漏れた最小限の情報でタスクを遂行し、検出を避けることを目的とした制約された計画問題である。
本稿では,観測者の不完全な観測と力学の結合を利用して,検出されることなく最適性能を実現する方法について検討する。
論文 参考訳(メタデータ) (2023-10-25T17:23:57Z) - Analyzing Intentional Behavior in Autonomous Agents under Uncertainty [3.0099979365586265]
不確実な環境での自律的な意思決定の原則的説明責任は、否定的な設計と実際の事故との意図的な結果の区別を必要とする。
本稿では、意図的行動の証拠を定量的に測定し、自律エージェントの行動を分析することを提案する。
ケーススタディでは,本手法が「意図的」交通衝突と「事故的」交通衝突を区別できることを示す。
論文 参考訳(メタデータ) (2023-07-04T07:36:11Z) - Safe Explicable Planning [3.3869539907606603]
安全計画(SEP:Safe Explicable Planning)を提案する。
提案手法は,複数のモデルから派生した複数の対象の考察を一般化する。
これらの手法の望ましい理論的性質を検証するための公式な証明を提供する。
論文 参考訳(メタデータ) (2023-04-04T21:49:02Z) - Model Predictive Control with Gaussian-Process-Supported Dynamical
Constraints for Autonomous Vehicles [82.65261980827594]
本研究では、学習したガウス過程を利用して人間の運転行動を予測する自動運転車のモデル予測制御手法を提案する。
マルチモード予測制御アプローチは、人間のドライバーの意図を考察する。
論文 参考訳(メタデータ) (2023-03-08T17:14:57Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Inverse Online Learning: Understanding Non-Stationary and Reactionary
Policies [79.60322329952453]
エージェントが意思決定を行う方法の解釈可能な表現を開発する方法を示す。
一連の軌跡に基づく意思決定プロセスを理解することにより,このオンライン学習問題に対して,政策推論問題を逆問題とみなした。
本稿では、エージェントがそれらを更新するプロセスと並行して、その影響を遡及的に推定する実用的なアルゴリズムを提案する。
UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに、貴重な洞察をもたらすことができることを実証する。
論文 参考訳(メタデータ) (2022-03-14T17:40:42Z) - Probabilistic Human Motion Prediction via A Bayesian Neural Network [71.16277790708529]
本稿では,人間の動作予測のための確率モデルを提案する。
我々のモデルは、観測された動きシーケンスが与えられたときに、いくつかの将来の動きを生成することができる。
我々は、大規模ベンチマークデータセットHuman3.6mに対して、我々のアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2021-07-14T09:05:33Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - An Adversarial Objective for Scalable Exploration [39.482557864395005]
モデルに基づく好奇心は、最適サンプリングのためのアクティブな学習アプローチと、探索のための情報ゲインに基づくインセンティブを組み合わせる。
既存のモデルに基づく好奇心法では,多くの予測計画パイプラインへのスケールアップに苦慮するアプローチを用いて,予測の不確実性を近似する。
判別器ネットワークが与えるスコアを最小限に抑える逆好奇心法を用いて,これらのスケーラビリティ問題に対処する。
論文 参考訳(メタデータ) (2020-03-13T02:03:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。