論文の概要: Act-Then-Measure: Reinforcement Learning for Partially Observable
Environments with Active Measuring
- arxiv url: http://arxiv.org/abs/2303.08271v1
- Date: Tue, 14 Mar 2023 23:22:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 15:25:04.320122
- Title: Act-Then-Measure: Reinforcement Learning for Partially Observable
Environments with Active Measuring
- Title(参考訳): act-then-measure:アクティブ計測を用いた部分観測環境の強化学習
- Authors: Merlijn Krale, Thiago D. Sim\~ao, Nils Jansen
- Abstract要約: 我々はマルコフ決定プロセス(MDP)について検討し、エージェントはいつどのように情報を集めるかを直接制御する。
これらのモデルでは、アクションは環境に影響を与える制御アクションと、エージェントが観察できるものに影響を与える測定アクションの2つのコンポーネントで構成される。
この仮定に従うと、ポリシー時間が短くなり、計算によって生じる性能損失の限界が証明される。
- 参考スコア(独自算出の注目度): 4.033107207078282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study Markov decision processes (MDPs), where agents have direct control
over when and how they gather information, as formalized by action-contingent
noiselessly observable MDPs (ACNO-MPDs). In these models, actions consist of
two components: a control action that affects the environment, and a
measurement action that affects what the agent can observe. To solve ACNO-MDPs,
we introduce the act-then-measure (ATM) heuristic, which assumes that we can
ignore future state uncertainty when choosing control actions. We show how
following this heuristic may lead to shorter policy computation times and prove
a bound on the performance loss incurred by the heuristic. To decide whether or
not to take a measurement action, we introduce the concept of measuring value.
We develop a reinforcement learning algorithm based on the ATM heuristic, using
a Dyna-Q variant adapted for partially observable domains, and showcase its
superior performance compared to prior methods on a number of
partially-observable environments.
- Abstract(参考訳): 我々はマルコフ決定過程(mdps)について検討し、エージェントがいつどのように情報を収集するかを直接制御し、アクションコンティントノイズレス可観測mdps(acno-mpd)によって形式化された。
これらのモデルでは、アクションは環境に影響を与える制御アクションと、エージェントが観察できるものに影響を与える測定アクションの2つのコンポーネントで構成される。
ACNO-MDPを解くために,制御動作を選択する際に将来の状態の不確実性を無視できるATMヒューリスティックを導入する。
このヒューリスティックに従えば、より短いポリシー計算時間につながる可能性を示し、ヒューリスティックによって引き起こされる性能損失を証明できることを示す。
測定行動をとるか否かを決定するために,測定値の概念を導入する。
ATMヒューリスティックに基づく強化学習アルゴリズムを開発し、部分観測可能な領域に適応したDyna-Q変種を用いて、いくつかの部分観測可能な環境において従来の手法と比較して優れた性能を示す。
関連論文リスト
- H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文 参考訳(メタデータ) (2021-11-19T16:12:30Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [82.4156635056267]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Rule-based Shielding for Partially Observable Monte-Carlo Planning [78.05638156687343]
一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。
1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。
2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。
我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
論文 参考訳(メタデータ) (2021-04-28T14:23:38Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Modulation of viability signals for self-regulatory control [1.370633147306388]
適応行動のドライバとしてのインストゥルメンタルバリューの役割を再考する。
強化学習タスクでは、好みの分布が報酬の概念に取って代わる。
論文 参考訳(メタデータ) (2020-07-18T01:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。