論文の概要: Anticipating Oblivious Opponents in Stochastic Games
- arxiv url: http://arxiv.org/abs/2409.11671v1
- Date: Wed, 18 Sep 2024 03:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 19:19:53.392034
- Title: Anticipating Oblivious Opponents in Stochastic Games
- Title(参考訳): 確率ゲームにおけるオープンな反対者を予想する
- Authors: Shadi Tasdighi Kalat, Sriram Sankaranarayanan, Ashutosh Trivedi,
- Abstract要約: 我々は,我々のオートマトンによって追跡される信念状態が,完全な歴史の知識によって得られた正確な信念状態から一定の距離に留まることを保証する一貫性の概念を導入する。
本稿では、情報状態マシンが、プレイ上で定義された報酬関数を最大化するための最適ポリシーを計算するための出発点となるMDPを生成する方法を示す。
- 参考スコア(独自算出の注目度): 7.9266383017424795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an approach for systematically anticipating the actions and policies employed by \emph{oblivious} environments in concurrent stochastic games, while maximizing a reward function. Our main contribution lies in the synthesis of a finite \emph{information state machine} whose alphabet ranges over the actions of the environment. Each state of the automaton is mapped to a belief state about the policy used by the environment. We introduce a notion of consistency that guarantees that the belief states tracked by our automaton stays within a fixed distance of the precise belief state obtained by knowledge of the full history. We provide methods for checking consistency of an automaton and a synthesis approach which upon successful termination yields such a machine. We show how the information state machine yields an MDP that serves as the starting point for computing optimal policies for maximizing a reward function defined over plays. We present an experimental evaluation over benchmark examples including human activity data for tasks such as cataract surgery and furniture assembly, wherein our approach successfully anticipates the policies and actions of the environment in order to maximize the reward.
- Abstract(参考訳): 本稿では, 同時確率ゲームにおけるemph{oblivious}環境の行動とポリシーを体系的に予測し, 報酬関数を最大化する手法を提案する。
我々の主な貢献は、環境の作用を越えてアルファベットが広がる有限な \emph{information state machine} の合成である。
オートマトンの各状態は、環境が使用するポリシーに関する信念状態にマッピングされる。
我々は,我々のオートマトンによって追跡される信念状態が,完全な歴史の知識によって得られた正確な信念状態から一定の距離に留まることを保証する一貫性の概念を導入する。
本稿では、自動機械の整合性をチェックする方法と、終端が成功すると、そのような機械が生成される合成手法を提案する。
本稿では、情報状態マシンが、プレイ上で定義された報酬関数を最大化するための最適ポリシーを計算するための出発点となるMDPを生成する方法を示す。
本研究では,白内障手術や家具組み立てなどの作業に対する人的活動データを含むベンチマーク例に対する評価実験を行い,報奨を最大化するために,環境の方針や行動の予測に成功している。
関連論文リスト
- Non-maximizing policies that fulfill multi-criterion aspirations in expectation [0.7874708385247353]
動的プログラミングおよび強化学習において、エージェントの逐次決定のためのポリシーは通常、目標をスカラー報酬関数として表現することによって決定される。
複数の異なる評価指標を持つ有限非巡回決定マルコフプロセスを考えるが、これは必ずしもユーザが最大化したい量を表すものではない。
提案アルゴリズムは,本課題を簡易性を用いて実現可能集合を近似し,その実現可能性を維持しつつ,前もって願望を伝達することによって達成することを保証する。
論文 参考訳(メタデータ) (2024-08-08T11:41:04Z) - Imagination Policy: Using Generative Point Cloud Models for Learning Manipulation Policies [25.760946763103483]
Imagination Policy(Imagination Policy)は,高精度ピック・アンド・プレイス・タスクを解くための新しいマルチタスク・キー・フレーム・ポリシー・ネットワークである。
アクションを直接学習する代わりに、Imagination Policy は所望の状態を想像するために点雲を生成し、それが厳密なアクション推定を用いてアクションに変換される。
論文 参考訳(メタデータ) (2024-06-17T17:00:41Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Covert Planning against Imperfect Observers [29.610121527096286]
カバー・プランニング(英: Covert Planning)とは、エージェントが受動的オブザーバに漏れた最小限の情報でタスクを遂行し、検出を避けることを目的とした制約された計画問題である。
本稿では,観測者の不完全な観測と力学の結合を利用して,検出されることなく最適性能を実現する方法について検討する。
論文 参考訳(メタデータ) (2023-10-25T17:23:57Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Learning One Representation to Optimize All Rewards [19.636676744015197]
我々は,報酬のないマルコフ決定プロセスのダイナミクスのフォワードバックワード(fb)表現を紹介する。
後尾に指定された報酬に対して、明確な準最適ポリシーを提供する。
これは任意のブラックボックス環境で制御可能なエージェントを学ぶためのステップです。
論文 参考訳(メタデータ) (2021-03-14T15:00:08Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Learning Non-Markovian Reward Models in MDPs [0.0]
メアリーマシンを用いて非マルコフ報酬関数を定式化する方法を示す。
正式な設定では、エージェントが進化する環境の力学をモデル化するマルコフ決定過程(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントから未知であり、学習されなければならない。
論文 参考訳(メタデータ) (2020-01-25T10:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。