論文の概要: How to Exhibit More Predictable Behaviors
- arxiv url: http://arxiv.org/abs/2404.11296v1
- Date: Wed, 17 Apr 2024 12:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:14:33.733495
- Title: How to Exhibit More Predictable Behaviors
- Title(参考訳): 予測可能な行動の禁止方法
- Authors: Salomé Lepers, Sophie Lemonnier, Vincent Thomas, Olivier Buffet,
- Abstract要約: 本稿では,外部オブザーバが行うことができる予測を最適化するために,エージェントがその戦略を選択する必要がある予測可能性問題について考察する。
環境力学や観察対象者の政策について不確実性を考慮して検討する。
本稿では,エージェントポリシーに対するオブザーバの信念に基づいて,報酬関数を用いた行動予測可能性評価基準を提案する。
- 参考スコア(独自算出の注目度): 3.5248694676821484
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper looks at predictability problems, i.e., wherein an agent must choose its strategy in order to optimize the predictions that an external observer could make. We address these problems while taking into account uncertainties on the environment dynamics and on the observed agent's policy. To that end, we assume that the observer 1. seeks to predict the agent's future action or state at each time step, and 2. models the agent using a stochastic policy computed from a known underlying problem, and we leverage on the framework of observer-aware Markov decision processes (OAMDPs). We propose action and state predictability performance criteria through reward functions built on the observer's belief about the agent policy; show that these induced predictable OAMDPs can be represented by goal-oriented or discounted MDPs; and analyze the properties of the proposed reward functions both theoretically and empirically on two types of grid-world problems.
- Abstract(参考訳): 本稿では,外部観測者による予測を最適化するために,エージェントが戦略を選択するという予測可能性の問題について考察する。
本研究では,環境動態やエージェントの方針に不確かさを考慮しつつ,これらの問題に対処する。
その目的のために、我々はオブザーバーが
1. 各段階におけるエージェントの今後の行動や状態を予測し、
2. 既知問題から計算した確率的ポリシーを用いてエージェントをモデル化し, オブザーバ対応マルコフ決定プロセス(OAMDP)の枠組みを活用する。
我々は,エージェントポリシーに関するオブザーバの信念に基づく報酬関数による行動および状態予測可能性のパフォーマンス基準を提案し,これらの予測可能なOAMDPは,目標指向あるいは割引されたMDPで表現できることを示し,提案された報酬関数の特性を理論的および経験的に2種類のグリッドワールド問題に基づいて分析する。
関連論文リスト
- Covert Planning against Imperfect Observers [29.610121527096286]
カバー・プランニング(英: Covert Planning)とは、エージェントが受動的オブザーバに漏れた最小限の情報でタスクを遂行し、検出を避けることを目的とした制約された計画問題である。
本稿では,観測者の不完全な観測と力学の結合を利用して,検出されることなく最適性能を実現する方法について検討する。
論文 参考訳(メタデータ) (2023-10-25T17:23:57Z) - CAMMARL: Conformal Action Modeling in Multi Agent Reinforcement Learning [5.865719902445064]
本稿では,新しいマルチエージェント強化学習アルゴリズムCAMMARLを提案する。
それは、異なる状況における他のエージェントのアクションを、自信集合の形でモデル化することを含む。
本稿では,CAMMARLが共形予測セットをモデル化することにより,MARLにおける自律エージェントの能力を高めることを示す。
論文 参考訳(メタデータ) (2023-06-19T19:03:53Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。
エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T14:56:23Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Deceptive Kernel Function on Observations of Discrete POMDP [34.32166929236478]
離散POMDPにおけるエージェントの観察に応用した, 擬似カーネル関数(カーネル)を提案する。
我々は、カーネルの出力としてファルシフィケートされた観察によって誤解されるその信念を分析し、エージェントの報酬やその他のパフォーマンスに対する潜在的な脅威を予想する。
論文 参考訳(メタデータ) (2020-08-12T21:59:42Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。