論文の概要: Task-Guided IRL in POMDPs that Scales
- arxiv url: http://arxiv.org/abs/2301.01219v1
- Date: Fri, 30 Dec 2022 21:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 14:22:51.087938
- Title: Task-Guided IRL in POMDPs that Scales
- Title(参考訳): スケールするPMDPにおけるタスクガイドIRL
- Authors: Franck Djeumou and Christian Ellis and Murat Cubuktepe and Craig
Lennon and Ufuk Topcu
- Abstract要約: 逆線形強化学習(IRL)では、学習エージェントは、専門家のデモンストレーションを用いて、基礎となるタスクをコードする報酬関数を推論する。
ほとんどのIRL技術は、POMDPの計算前方問題(報酬関数を与えられた最適ポリシーを計算)を必要とする。
我々は,データ効率を向上しながら,情報量を削減するアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 22.594913269327353
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In inverse reinforcement learning (IRL), a learning agent infers a reward
function encoding the underlying task using demonstrations from experts.
However, many existing IRL techniques make the often unrealistic assumption
that the agent has access to full information about the environment. We remove
this assumption by developing an algorithm for IRL in partially observable
Markov decision processes (POMDPs). We address two limitations of existing IRL
techniques. First, they require an excessive amount of data due to the
information asymmetry between the expert and the learner. Second, most of these
IRL techniques require solving the computationally intractable forward problem
-- computing an optimal policy given a reward function -- in POMDPs. The
developed algorithm reduces the information asymmetry while increasing the data
efficiency by incorporating task specifications expressed in temporal logic
into IRL. Such specifications may be interpreted as side information available
to the learner a priori in addition to the demonstrations. Further, the
algorithm avoids a common source of algorithmic complexity by building on
causal entropy as the measure of the likelihood of the demonstrations as
opposed to entropy. Nevertheless, the resulting problem is nonconvex due to the
so-called forward problem. We solve the intrinsic nonconvexity of the forward
problem in a scalable manner through a sequential linear programming scheme
that guarantees to converge to a locally optimal policy. In a series of
examples, including experiments in a high-fidelity Unity simulator, we
demonstrate that even with a limited amount of data and POMDPs with tens of
thousands of states, our algorithm learns reward functions and policies that
satisfy the task while inducing similar behavior to the expert by leveraging
the provided side information.
- Abstract(参考訳): 逆強化学習(IRL)では、学習エージェントが専門家のデモンストレーションを用いて、基礎となるタスクを符号化する報酬関数を推論する。
しかし、既存のIRL技術の多くは、エージェントが環境に関する完全な情報にアクセスできることをしばしば非現実的に仮定している。
部分観測可能なマルコフ決定過程(POMDP)において、IRLのアルゴリズムを開発することにより、この仮定を除去する。
既存のIRL技術の2つの限界に対処する。
まず、専門家と学習者の情報非対称性のため、過剰な量のデータを必要とする。
第2に、これらのIRL技術のほとんどは、計算的に難解な前方問題(報酬関数を与えられた最適ポリシーを計算)をPOMDPで解く必要がある。
時相論理で表されるタスク仕様をirlに組み込むことにより,情報非対称性を低減し,データ効率を向上させる。
このような仕様は、デモに加えて学習者の事前情報として解釈することができる。
さらに、アルゴリズムは、エントロピーとは対照的にデモンストレーションの可能性を測る尺度として、因果エントロピーに基づくアルゴリズムの複雑さの共通源を避ける。
しかしながら、結果として生じる問題は、いわゆる前方問題による非凸である。
我々は,局所的最適方針に収束することを保証した逐次線形計画法によって,前方問題の本質的非凸性をスケーラブルに解く。
高忠実度Unityシミュレータの実験を含む一連の例では、限られた量のデータと数万の状態のPMDPであっても、提案アルゴリズムは与えられた側情報を利用して専門家に類似した振る舞いを誘導しながら、タスクを満たす報酬関数とポリシーを学習する。
関連論文リスト
- The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - State Sequences Prediction via Fourier Transform for Representation
Learning [111.82376793413746]
本研究では,表現表現を効率よく学習する新しい方法である,フーリエ変換(SPF)による状態列予測を提案する。
本研究では,状態系列における構造情報の存在を理論的に解析する。
実験により,提案手法はサンプル効率と性能の両面で,最先端のアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T14:47:02Z) - Self-Supervised Learning with Lie Symmetries for Partial Differential
Equations [25.584036829191902]
我々は、自己教師付き学習(SSL)のための共同埋め込み手法を実装することにより、PDEの汎用表現を学習する。
我々の表現は、PDEの係数の回帰などの不変タスクに対するベースラインアプローチよりも優れており、また、ニューラルソルバのタイムステッピング性能も向上している。
提案手法がPDEの汎用基盤モデルの開発に有効であることを期待する。
論文 参考訳(メタデータ) (2023-07-11T16:52:22Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Self-Supervised Learning via Maximum Entropy Coding [57.56570417545023]
本稿では,表現の構造を明示的に最適化する原理的目的として,最大エントロピー符号化(MEC)を提案する。
MECは、特定のプリテキストタスクに基づいて、以前のメソッドよりもより一般化可能な表現を学ぶ。
ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-20T17:58:30Z) - Exploring Viable Algorithmic Options for Learning from Demonstration
(LfD): A Parameterized Complexity Approach [0.0]
本稿では,パラメータ化複雑性解析を用いて,アルゴリズムの選択肢を体系的に探索する方法を示す。
環境、実演、ポリシーに対する多くの(しばしば同時に)制限に対して、我々の問題は、一般的にも、あるいは相対的に、効率的に解決できないことを示す。
論文 参考訳(メタデータ) (2022-05-10T15:54:06Z) - Task-Guided Inverse Reinforcement Learning Under Partial Information [19.614913673879474]
本研究では,逆強化学習(IRL, inverse reinforcement learning)の課題について考察する。
既存のIRL技術のほとんどは、エージェントがフォワード環境に与えられた完全な情報を持っていると仮定することが多い。
論文 参考訳(メタデータ) (2021-05-28T19:36:54Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。