論文の概要: TAB-Fields: A Maximum Entropy Framework for Mission-Aware Adversarial Planning
- arxiv url: http://arxiv.org/abs/2412.02570v1
- Date: Tue, 03 Dec 2024 16:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:18.299885
- Title: TAB-Fields: A Maximum Entropy Framework for Mission-Aware Adversarial Planning
- Title(参考訳): TAB-Fields: ミッションアウェア対応計画のための最大エントロピーフレームワーク
- Authors: Gokul Puthumanaillam, Jae Hyuk Song, Nurzhan Yesmagambet, Shinkyu Park, Melkior Ornik,
- Abstract要約: 我々は、既知の制約に整合した最も偏りのない確率分布を計算することにより、時間とともに敵状態の分布をキャプチャする表現を開発する。
我々は,TAB条件付きPOMCPを導入することで,TAB-Fieldsを標準計画アルゴリズムと統合する。
提案手法は,特定の敵政策を前提としたベースラインや,ミッション制約を完全に無視するベースラインと比較して,優れた性能を達成できることを実証する。
- 参考スコア(独自算出の注目度): 2.4903631775244213
- License:
- Abstract: Autonomous agents operating in adversarial scenarios face a fundamental challenge: while they may know their adversaries' high-level objectives, such as reaching specific destinations within time constraints, the exact policies these adversaries will employ remain unknown. Traditional approaches address this challenge by treating the adversary's state as a partially observable element, leading to a formulation as a Partially Observable Markov Decision Process (POMDP). However, the induced belief-space dynamics in a POMDP require knowledge of the system's transition dynamics, which, in this case, depend on the adversary's unknown policy. Our key observation is that while an adversary's exact policy is unknown, their behavior is necessarily constrained by their mission objectives and the physical environment, allowing us to characterize the space of possible behaviors without assuming specific policies. In this paper, we develop Task-Aware Behavior Fields (TAB-Fields), a representation that captures adversary state distributions over time by computing the most unbiased probability distribution consistent with known constraints. We construct TAB-Fields by solving a constrained optimization problem that minimizes additional assumptions about adversary behavior beyond mission and environmental requirements. We integrate TAB-Fields with standard planning algorithms by introducing TAB-conditioned POMCP, an adaptation of Partially Observable Monte Carlo Planning. Through experiments in simulation with underwater robots and hardware implementations with ground robots, we demonstrate that our approach achieves superior performance compared to baselines that either assume specific adversary policies or neglect mission constraints altogether. Evaluation videos and code are available at https://tab-fields.github.io.
- Abstract(参考訳): 敵が時間的制約の中で特定の目的地に到達するなど、敵の高レベルな目的を知っていても、敵が採用する正確な方針は分かっていない。
従来のアプローチでは、敵の状態を部分的に観測可能な要素として扱い、部分観測可能なマルコフ決定過程(POMDP)として定式化することでこの問題に対処している。
しかし、POMDPにおける帰納的信念空間力学はシステムの遷移力学の知識を必要とし、この場合、相手の未知のポリシーに依存する。
我々のキーとなる観察は、敵の正確な方針は分かっていないが、その行動は必然的に彼らのミッション目標と物理的環境によって制約され、特定の方針を仮定することなく、可能な行動の空間を特徴づけることができることである。
本稿では,タスク認識行動場(TAB-Fields, Task-Aware Behavior Fields, TAB-Fields)を開発した。
我々は、ミッションや環境条件を超えた敵行動に関する仮定を最小化する制約付き最適化問題を解くことでTAB-Fieldsを構築する。
我々は,TAB条件付きPOMCPを導入することで,TAB-Fieldsを標準計画アルゴリズムと統合する。
水中ロボットによるシミュレーション実験と地上ロボットによるハードウェア実装実験により, 本手法は, 特定の敵政策を前提としたベースラインや, ミッション制約を完全に無視するベースラインと比較して, 優れた性能を達成できることが実証された。
評価ビデオとコードはhttps://tab-fields.github.ioで公開されている。
関連論文リスト
- GUIDEd Agents: Enhancing Navigation Policies through Task-Specific Uncertainty Abstraction in Localization-Limited Environments [1.614803913005309]
本稿では,タスク固有の不確実性要件を直接ナビゲーションポリシーに統合する計画手法を提案する。
本稿では,これらの不確実性要件をロボットの意思決定に組み込んだ政策条件付けフレームワークGUIDEを提案する。
本稿では,GUIDEを強化学習フレームワークに組み込むことで,作業完了と不確実性管理を明確な報奨エンジニアリングなしで効果的にバランスするナビゲーションポリシーを学習することができることを示す。
論文 参考訳(メタデータ) (2024-10-19T18:46:17Z) - Towards Interpretable Foundation Models of Robot Behavior: A Task Specific Policy Generation Approach [1.7205106391379026]
ファンデーションモデルは、汎用的でユーザフレンドリーなロボットへの、有望な道のりだ。
特に、タスク間のモジュラリティの欠如は、モデルの重みが更新されると、他の無関係なタスクの振る舞いが影響を受ける可能性があることを意味します。
本稿では,スタンドアロンのタスク固有のポリシーを生成するロボット基盤モデルの設計に対する代替的アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-10T21:55:44Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Decision Making in Non-Stationary Environments with Policy-Augmented
Search [9.000981144624507]
textitPolicy-Augmented Monte Carlo Tree Search (PA-MCTS)を紹介する。
行動価値の推定は、最新のポリシーと、その環境の最新のモデルを用いたオンライン検索を組み合わせる。
PA-MCTSが1ステップの最適動作を選択し、PA-MCTSをポリシーとして追従しながら発生した誤差を拘束する条件を示す理論的結果を示す。
論文 参考訳(メタデータ) (2024-01-06T11:51:50Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Rule-based Shielding for Partially Observable Monte-Carlo Planning [78.05638156687343]
一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。
1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。
2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。
我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
論文 参考訳(メタデータ) (2021-04-28T14:23:38Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Verifiable Planning in Expected Reward Multichain MDPs [20.456052208569115]
エージェントの意思決定方針を導出する定常計画問題について検討する。
提案プログラムに対する最適解が、厳密な行動保証を伴う定常的な政策をもたらすことを証明した。
論文 参考訳(メタデータ) (2020-12-03T18:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。