論文の概要: Task-Guided Inverse Reinforcement Learning Under Partial Information
- arxiv url: http://arxiv.org/abs/2105.14073v1
- Date: Fri, 28 May 2021 19:36:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:36:16.668461
- Title: Task-Guided Inverse Reinforcement Learning Under Partial Information
- Title(参考訳): 部分情報に基づくタスクガイド型逆強化学習
- Authors: Franck Djeumou, Murat Cubuktepe, Craig Lennon, Ufuk Topcu
- Abstract要約: 本研究では,逆強化学習(IRL, inverse reinforcement learning)の課題について考察する。
既存のIRL技術のほとんどは、エージェントがフォワード環境に与えられた完全な情報を持っていると仮定することが多い。
- 参考スコア(独自算出の注目度): 19.614913673879474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of inverse reinforcement learning (IRL), where the
learning agent recovers a reward function using expert demonstrations. Most of
the existing IRL techniques make the often unrealistic assumption that the
agent has access to full information about the environment. We remove this
assumption by developing an algorithm for IRL in partially observable Markov
decision processes (POMDPs), where an agent cannot directly observe the current
state of the POMDP. The algorithm addresses several limitations of existing
techniques that do not take the \emph{information asymmetry} between the expert
and the agent into account. First, it adopts causal entropy as the measure of
the likelihood of the expert demonstrations as opposed to entropy in most
existing IRL techniques and avoids a common source of algorithmic complexity.
Second, it incorporates task specifications expressed in temporal logic into
IRL. Such specifications may be interpreted as side information available to
the learner a priori in addition to the demonstrations, and may reduce the
information asymmetry between the expert and the agent. Nevertheless, the
resulting formulation is still nonconvex due to the intrinsic nonconvexity of
the so-called \emph{forward problem}, i.e., computing an optimal policy given a
reward function, in POMDPs. We address this nonconvexity through sequential
convex programming and introduce several extensions to solve the forward
problem in a scalable manner. This scalability allows computing policies that
incorporate memory at the expense of added computational cost yet also achieves
higher performance compared to memoryless policies. We demonstrate that, even
with severely limited data, the algorithm learns reward functions and policies
that satisfy the task and induce a similar behavior to the expert by leveraging
the side information and incorporating memory into the policy.
- Abstract(参考訳): 本研究では, 学習エージェントが評価関数を回復する逆強化学習(irl)の問題について, 実演を用いて検討する。
既存のIRL技術のほとんどは、エージェントが環境に関する完全な情報にアクセスできることをしばしば非現実的に仮定する。
我々は、エージェントがPOMDPの現在の状態を直接観察できない部分観測可能なマルコフ決定プロセス(POMDP)においてIRLのアルゴリズムを開発することにより、この仮定を除去する。
このアルゴリズムは、専門家とエージェントの間の \emph{information asymmetry} を考慮しない既存の技術のいくつかの制限に対処する。
まず、既存のほとんどのIRL技法のエントロピーとは対照的に、因果エントロピーを専門家によるデモンストレーションの可能性の尺度として採用し、アルゴリズムの複雑さの共通源を避ける。
第2に、時間論理で表現されたタスク仕様をIRLに組み込む。
このような仕様は、デモンストレーションに加えて学習者aの事前情報として解釈することができ、専門家とエージェント間の情報非対称性を低減できる。
それにもかかわらず、結果の定式化は、pomdps において、いわゆる \emph{forward problem} の本質的な非凸性、すなわち、報奨関数が与えられた最適ポリシーを計算するため、まだ非凸である。
逐次凸プログラミングを通じてこの非凸性に対処し,スケーラブルに前方問題を解決するための拡張をいくつか導入する。
このスケーラビリティにより、追加の計算コストを犠牲にしてメモリを組み込みながら、メモリレスポリシよりも高いパフォーマンスを実現するコンピューティングポリシが可能になる。
極めて限られたデータであっても、アルゴリズムはタスクを満たす報酬関数やポリシーを学習し、サイド情報を活用してそのポリシーにメモリを組み込むことで、専門家と同じような振る舞いを誘発することを示した。
関連論文リスト
- Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Task-Guided IRL in POMDPs that Scales [22.594913269327353]
逆線形強化学習(IRL)では、学習エージェントは、専門家のデモンストレーションを用いて、基礎となるタスクをコードする報酬関数を推論する。
ほとんどのIRL技術は、POMDPの計算前方問題(報酬関数を与えられた最適ポリシーを計算)を必要とする。
我々は,データ効率を向上しながら,情報量を削減するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-12-30T21:08:57Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Deep Inverse Q-learning with Constraints [15.582910645906145]
我々は、専門家のポリシーを回復するために、実証行動の根底にあるMDPを解くことしか必要としない新しいアルゴリズムのクラスを導入する。
本稿では,このアルゴリズムを関数近似を用いて連続状態空間に拡張する方法と,対応するアクション値関数を推定する方法を示す。
我々は、Objectworldベンチマーク上で、逆アクション値反復、逆Q-ラーニング、ディープ逆Q-ラーニングと呼ばれる結果のアルゴリズムを評価した。
論文 参考訳(メタデータ) (2020-08-04T17:21:51Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Transfer Reinforcement Learning under Unobserved Contextual Information [16.895704973433382]
本研究では,環境条件によって状態遷移と報酬が影響を受ける伝達強化学習問題について検討する。
本研究では,デモンストレータのデータを用いて,遷移関数と報酬関数の因果境界を求める手法を開発した。
バイアスのない真値関数に収束する新しいQ学習アルゴリズムとUCB-Q学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-09T22:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。