論文の概要: Goal-oriented inference of environment from redundant observations
- arxiv url: http://arxiv.org/abs/2305.04432v1
- Date: Mon, 8 May 2023 03:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-05-09 15:55:12.814043
- Title: Goal-oriented inference of environment from redundant observations
- Title(参考訳): 冗長観測による目標指向環境推定
- Authors: Kazuki Takahashi, Tomoki Fukai, Yutaka Sakai, Takashi Takekawa
- Abstract要約: 報酬関連「中核状態」間の状態遷移規則を効率的に学習するための目標指向強化学習法を提案する。
提案手法は,コア状態のみを含むモデルが説明可能性が高く,メモリ消費の抑制や学習速度の向上など,オンライン学習に適した手法であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The agent learns to organize decision behavior to achieve a behavioral goal,
such as reward maximization, and reinforcement learning is often used for this
optimization. Learning an optimal behavioral strategy is difficult under the
uncertainty that events necessary for learning are only partially observable,
called as Partially Observable Markov Decision Process (POMDP). However, the
real-world environment also gives many events irrelevant to reward delivery and
an optimal behavioral strategy. The conventional methods in POMDP, which
attempt to infer transition rules among the entire observations, including
irrelevant states, are ineffective in such an environment. Supposing
Redundantly Observable Markov Decision Process (ROMDP), here we propose a
method for goal-oriented reinforcement learning to efficiently learn state
transition rules among reward-related "core states'' from redundant
observations. Starting with a small number of initial core states, our model
gradually adds new core states to the transition diagram until it achieves an
optimal behavioral strategy consistent with the Bellman equation. We
demonstrate that the resultant inference model outperforms the conventional
method for POMDP. We emphasize that our model only containing the core states
has high explainability. Furthermore, the proposed method suits online learning
as it suppresses memory consumption and improves learning speed.
- Abstract(参考訳): エージェントは、報酬の最大化などの行動目標を達成するために意思決定行動の整理を学習し、この最適化にしばしば強化学習が使用される。
最適な行動戦略を学ぶことは、学習に必要なイベントが部分的に観測可能であり、部分観測可能なマルコフ決定プロセス(pomdp)と呼ばれる不確実性の下で難しい。
しかし、現実の環境はまた、配達と最適な行動戦略に無関係な多くのイベントを与える。
無関係な状態を含む観測全体の遷移規則を推論しようとする従来のPOMDPの手法は、そのような環境では効果がない。
本稿では,報酬関係の「中核状態」間の状態遷移規則を冗長な観測から効率的に学習する目的指向強化学習法を提案する。
少数の初期コア状態から始めて、このモデルがベルマン方程式と一致する最適挙動戦略を達成するまで、段階的に遷移ダイアグラムに新しいコア状態を追加する。
提案手法は従来のPMDP法よりも優れていることを示す。
我々は、コア状態のみを含むモデルが説明可能性が高いことを強調する。
さらに,提案手法は,メモリ消費を抑え,学習速度を向上させるため,オンライン学習に適合する。
関連論文リスト
- STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Strategy Synthesis in Markov Decision Processes Under Limited Sampling
Access [3.441021278275805]
グレーボックスマルコフ決定プロセス(MDP)によってモデル化された環境において、エージェントの作用の影響は後継状態の点で知られているが、関連する合成は知られていない。
本稿では,区間型MDPを内部モデルとして用いた強化学習により,グレーボックス型MDPの戦略アルゴリズムを考案する。
論文 参考訳(メタデータ) (2023-03-22T16:58:44Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Flow-based Recurrent Belief State Learning for POMDPs [20.860726518161204]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、実世界のシーケンシャルな意思決定プロセスをモデル化するための原則的で汎用的なフレームワークを提供する。
主な課題は、観測不能な環境状態の確率分布である信念状態をどのように正確に取得するかである。
近年のディープラーニング技術の進歩は、良き信念状態を学ぶ大きな可能性を示している。
論文 参考訳(メタデータ) (2022-05-23T05:29:55Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。