論文の概要: Exploiting Submodular Value Functions For Scaling Up Active Perception
- arxiv url: http://arxiv.org/abs/2009.09696v1
- Date: Mon, 21 Sep 2020 09:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 04:05:07.682711
- Title: Exploiting Submodular Value Functions For Scaling Up Active Perception
- Title(参考訳): アクティブ知覚のスケールアップのためのサブモジュール値関数のエクスプロイト
- Authors: Yash Satsangi, Shimon Whiteson, Frans A. Oliehoek, Matthijs T. J.
Spaan
- Abstract要約: アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
- 参考スコア(独自算出の注目度): 60.81276437097671
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In active perception tasks, an agent aims to select sensory actions that
reduce its uncertainty about one or more hidden variables. While partially
observable Markov decision processes (POMDPs) provide a natural model for such
problems, reward functions that directly penalize uncertainty in the agent's
belief can remove the piecewise-linear and convex property of the value
function required by most POMDP planners. Furthermore, as the number of sensors
available to the agent grows, the computational cost of POMDP planning grows
exponentially with it, making POMDP planning infeasible with traditional
methods. In this article, we address a twofold challenge of modeling and
planning for active perception tasks. We show the mathematical equivalence of
$\rho$POMDP and POMDP-IR, two frameworks for modeling active perception tasks,
that restore the PWLC property of the value function. To efficiently plan for
active perception tasks, we identify and exploit the independence properties of
POMDP-IR to reduce the computational cost of solving POMDP-IR (and
$\rho$POMDP). We propose greedy point-based value iteration (PBVI), a new POMDP
planning method that uses greedy maximization to greatly improve scalability in
the action space of an active perception POMDP. Furthermore, we show that,
under certain conditions, including submodularity, the value function computed
using greedy PBVI is guaranteed to have bounded error with respect to the
optimal value function. We establish the conditions under which the value
function of an active perception POMDP is guaranteed to be submodular. Finally,
we present a detailed empirical analysis on a dataset collected from a
multi-camera tracking system employed in a shopping mall. Our method achieves
similar performance to existing methods but at a fraction of the computational
cost leading to better scalability for solving active perception tasks.
- Abstract(参考訳): アクティブな知覚タスクでは、エージェントは1つ以上の隠れた変数に対する不確かさを減らす知覚アクションを選択することを目指している。
部分的に観測可能なマルコフ決定過程(POMDP)はそのような問題に対する自然なモデルを提供するが、エージェントの信念における不確実性を直接的に罰する報酬関数は、ほとんどのPOMDPプランナーが要求する値関数の断片的線形および凸性を取り除くことができる。
さらに、エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加し、従来の手法では不可能となる。
本稿では,アクティブ認知タスクのモデリングと計画に関する2つの課題に対処する。
有効知覚タスクをモデル化する2つのフレームワークである$\rho$POMDPとPOMDP-IRの数学的等価性を示し、値関数のPWLC特性を復元する。
アクティブな知覚タスクを効率的に計画するために、POMDP-IRの独立性を特定し、利用することにより、POMDP-IR(および$\rho$POMDP)の計算コストを削減する。
我々は,greedy point-based value iteration (PBVI) を提案する。これは,greedy maximization を用いて,アクティブな知覚POMDPの動作空間におけるスケーラビリティを大幅に向上させる新しいPOMDP計画手法である。
さらに,部分モジュラリティを含む一定の条件下では,greedy PBVIを用いて計算した値関数が最適値関数に対して有界誤差を持つことが保証されている。
我々は、アクティブな知覚POMDPの値関数がサブモジュラーであることを保証する条件を確立する。
最後に,ショッピングモールで採用されているマルチカメラ追跡システムから収集したデータセットについて,詳細な実証分析を行う。
提案手法は既存の手法と同じような性能を実現するが,計算コストのごく一部で能動的知覚タスクを解くためのスケーラビリティが向上する。
関連論文リスト
- Towards Cost Sensitive Decision Making [14.279123976398926]
本研究では,環境から機能を積極的に獲得し,意思決定の質と確実性を向上するRLモデルを考察する。
本稿では,Active-Acquisition POMDPを提案する。
積極的に獲得された部分観測環境においてエージェントを支援するとともに,探索・探索ジレンマを軽減するため,モデルベースアプローチを開発した。
論文 参考訳(メタデータ) (2024-10-04T19:48:23Z) - R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。
我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-21T18:32:44Z) - Monte Carlo Planning for Stochastic Control on Constrained Markov Decision Processes [1.445706856497821]
本研究は,MDP フレームワークである textttSD-MDP を定義し,MDP の遷移と報酬ダイナミクスの因果構造を解析する。
モンテカルロサンプリングから独立な値推定を行うことにより、最適ポリシの下での値関数の推定誤差に関する理論的保証を導出する。
論文 参考訳(メタデータ) (2024-06-23T16:22:40Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - PAC: Assisted Value Factorisation with Counterfactual Predictions in
Multi-Agent Reinforcement Learning [43.862956745961654]
多エージェント強化学習(MARL)は、値関数分解法の開発において大きな進歩をみせている。
本稿では、部分的に観測可能なMARL問題において、エージェントの動作に対する順序付けが同時に制約を課す可能性があることを示す。
最適関節動作選択の対実予測から得られる情報を活用する新しいフレームワークであるPACを提案する。
論文 参考訳(メタデータ) (2022-06-22T23:34:30Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Reinforcement Learning Based Temporal Logic Control with Soft
Constraints Using Limit-deterministic Generalized Buchi Automata [0.0]
不確実性を考慮した運動計画の制御合成について検討する。
ロボットの動作や環境特性に不確実性が考慮され、確率的マルコフ決定プロセス(MDP)が生まれます。
論文 参考訳(メタデータ) (2021-01-25T18:09:11Z) - Blending MPC & Value Function Approximation for Efficient Reinforcement
Learning [42.429730406277315]
モデル予測制御(MPC)は、複雑な実世界のシステムを制御する強力なツールである。
モデルフリー強化学習(RL)によるMPC改善のためのフレームワークを提案する。
我々は,本手法がmpcに匹敵する性能と真のダイナミクスを両立できることを示す。
論文 参考訳(メタデータ) (2020-12-10T11:32:01Z) - Exploration-Exploitation in Constrained MDPs [79.23623305214275]
拘束マルコフ決定過程(CMDP)における探索・探索ジレンマについて検討する。
未知のCMDPで学習している間、エージェントは、MDPに関する新しい情報を見つけるために、トレードオフ探索を行う必要がある。
エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。
論文 参考訳(メタデータ) (2020-03-04T17:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。