論文の概要: Robust Active Measuring under Model Uncertainty
- arxiv url: http://arxiv.org/abs/2312.11227v1
- Date: Mon, 18 Dec 2023 14:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 19:56:59.145598
- Title: Robust Active Measuring under Model Uncertainty
- Title(参考訳): モデル不確かさ下におけるロバスト能動計測
- Authors: Merlijn Krale, Thiago D. Sim\~ao, Jana Tumova, Nils Jansen
- Abstract要約: 部分的可観測性と不確実性は、シーケンシャルな意思決定において一般的な問題である。
本稿では,RAM-MDPを効率よく解き,モデルの不確実性によりエージェントがより少ない測定を行えることを示す。
- 参考スコア(独自算出の注目度): 11.087930299233278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partial observability and uncertainty are common problems in sequential
decision-making that particularly impede the use of formal models such as
Markov decision processes (MDPs). However, in practice, agents may be able to
employ costly sensors to measure their environment and resolve partial
observability by gathering information. Moreover, imprecise transition
functions can capture model uncertainty. We combine these concepts and extend
MDPs to robust active-measuring MDPs (RAM-MDPs). We present an active-measure
heuristic to solve RAM-MDPs efficiently and show that model uncertainty can,
counterintuitively, let agents take fewer measurements. We propose a method to
counteract this behavior while only incurring a bounded additional cost. We
empirically compare our methods to several baselines and show their superior
scalability and performance.
- Abstract(参考訳): 部分可観測性と不確実性は、特にマルコフ決定プロセス(MDP)のような形式モデルの使用を妨げるシーケンシャルな意思決定において一般的な問題である。
しかし実際には、エージェントは高価なセンサーを使って環境を計測し、情報収集によって部分的可観測性を解決することができる。
さらに、不正確な遷移関数はモデルの不確かさを捉えることができる。
これらの概念を組み合わせて,MDPをRAM-MDPに拡張する。
本稿では,RAM-MDPを効率よく解き,モデルの不確実性によってエージェントがより少ない測定値を取ることができることを示す。
そこで本稿では, 追加コストを抑えながら, この行動に対処する手法を提案する。
経験的にメソッドをいくつかのベースラインと比較し、優れたスケーラビリティとパフォーマンスを示します。
関連論文リスト
- R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。
我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-21T18:32:44Z) - Modeling Boundedly Rational Agents with Latent Inference Budgets [56.24971011281947]
エージェントの計算制約を明示的にモデル化する潜在推論予算モデル(L-IBM)を導入する。
L-IBMは、最適なアクターの多様な集団のデータを使ってエージェントモデルを学ぶことができる。
我々は,L-IBMが不確実性の下での意思決定のボルツマンモデルに適合しているか,あるいは上回っていることを示す。
論文 参考訳(メタデータ) (2023-12-07T03:55:51Z) - Measuring and Modeling Uncertainty Degree for Monocular Depth Estimation [50.920911532133154]
単分子深度推定モデル(MDE)の本質的な不適切さと順序感性は、不確かさの程度を推定する上で大きな課題となる。
本稿では,MDEモデルの不確かさを固有確率分布の観点からモデル化する。
新たなトレーニング正規化用語を導入することで、驚くほど単純な構成で、余分なモジュールや複数の推論を必要とせずに、最先端の信頼性で不確実性を推定できる。
論文 参考訳(メタデータ) (2023-07-19T12:11:15Z) - Act-Then-Measure: Reinforcement Learning for Partially Observable
Environments with Active Measuring [4.033107207078282]
我々はマルコフ決定プロセス(MDP)について検討し、エージェントはいつどのように情報を集めるかを直接制御する。
これらのモデルでは、アクションは環境に影響を与える制御アクションと、エージェントが観察できるものに影響を与える測定アクションの2つのコンポーネントで構成される。
この仮定に従うと、ポリシー時間が短くなり、計算によって生じる性能損失の限界が証明される。
論文 参考訳(メタデータ) (2023-03-14T23:22:32Z) - Probabilities Are Not Enough: Formal Controller Synthesis for Stochastic
Dynamical Models with Epistemic Uncertainty [68.00748155945047]
複雑な力学系のモデルにおける不確実性を捉えることは、安全なコントローラの設計に不可欠である。
いくつかのアプローチでは、安全と到達可能性に関する時間的仕様を満たすポリシーを形式的な抽象化を用いて合成する。
我々の貢献は、ノイズ、不確実なパラメータ、外乱を含む連続状態モデルに対する新しい抽象的制御法である。
論文 参考訳(メタデータ) (2022-10-12T07:57:03Z) - Robust Anytime Learning of Markov Decision Processes [8.799182983019557]
データ駆動型アプリケーションでは、限られたデータから正確な確率を導き出すと統計的エラーが発生する。
不確実なMDP(uMDP)は正確な確率を必要としないが、遷移においていわゆる不確実性集合を用いる。
本稿では,ベイズ的推論スキームとロバストポリシーの計算を組み合わせた,頑健な任意の時間学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-31T14:29:55Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。