論文の概要: Generalized Inverse Planning: Learning Lifted non-Markovian Utility for
Generalizable Task Representation
- arxiv url: http://arxiv.org/abs/2011.09854v1
- Date: Thu, 12 Nov 2020 21:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 06:31:02.969035
- Title: Generalized Inverse Planning: Learning Lifted non-Markovian Utility for
Generalizable Task Representation
- Title(参考訳): 一般化逆計画:一般化可能なタスク表現のための自由度非マルコフ的ユーティリティの学習
- Authors: Sirui Xie and Feng Gao and Song-Chun Zhu
- Abstract要約: 本研究では,人間の実演からこのような有用性を学ぶことを研究する。
本稿では,本領域におけるユーティリティ学習のための新しい探索手法である一般化逆計画を提案する。
計算フレームワークである最大エントロピー逆計画(MEIP)について概説し、非マルコフ的効用と関連する概念を生成的に学習する。
- 参考スコア(独自算出の注目度): 83.55414555337154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In searching for a generalizable representation of temporally extended tasks,
we spot two necessary constituents: the utility needs to be non-Markovian to
transfer temporal relations invariant to a probability shift, the utility also
needs to be lifted to abstract out specific grounding objects. In this work, we
study learning such utility from human demonstrations. While inverse
reinforcement learning (IRL) has been accepted as a general framework of
utility learning, its fundamental formulation is one concrete Markov Decision
Process. Thus the learned reward function does not specify the task
independently of the environment. Going beyond that, we define a domain of
generalization that spans a set of planning problems following a schema. We
hence propose a new quest, Generalized Inverse Planning, for utility learning
in this domain. We further outline a computational framework, Maximum Entropy
Inverse Planning (MEIP), that learns non-Markovian utility and associated
concepts in a generative manner. The learned utility and concepts form a task
representation that generalizes regardless of probability shift or structural
change. Seeing that the proposed generalization problem has not been widely
studied yet, we carefully define an evaluation protocol, with which we
illustrate the effectiveness of MEIP on two proof-of-concept domains and one
challenging task: learning to fold from demonstrations.
- Abstract(参考訳): 時間的拡張されたタスクの一般化可能な表現を探索する際には、2つの必要成分を見出す: 効用は確率シフトに不変な時間的関係を伝達する非マルコフ的でなければならない。
本研究では,人間の実演からこのような有用性を学ぶことを研究する。
逆強化学習(irl)はユーティリティ学習の一般的な枠組みとして受け入れられているが、その基本的な定式化はマルコフ決定過程の1つである。
したがって、学習した報酬関数は環境に依存しないタスクを指定しない。
それを超えて、私たちはスキーマに従う計画問題のセットにまたがる一般化のドメインを定義します。
そこで本稿では,この領域におけるユーティリティ学習のための新しい探索,一般化逆計画を提案する。
さらに計算フレームワークである最大エントロピー逆計画(MEIP)について概説し、非マルコフ的効用と関連する概念を生成的に学習する。
学習されたユーティリティと概念は、確率シフトや構造変化に関係なく一般化するタスク表現を形成する。
提案する一般化問題はまだ広く研究されていないが,2つの概念実証領域におけるMEIPの有効性と,実証から折り畳むことの学習という課題について,評価プロトコルを慎重に定義する。
関連論文リスト
- Disentangling Representations through Multi-task Learning [0.0]
分類タスクを最適に解決するエージェントにおいて,不整合表現の出現を保証する実験および理論的結果を提供する。
マルチタスク分類を訓練したRNNにおいて,これらの予測を実験的に検証した。
私たちは、トランスフォーマーが特に、そのユニークな世界理解能力を説明するような、無関係な表現に向いていることに気付きました。
論文 参考訳(メタデータ) (2024-07-15T21:32:58Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Discovering Generalizable Spatial Goal Representations via Graph-based
Active Reward Learning [17.58129740811116]
我々は、報酬学習アプローチ、グラフベースの等価マッピング(GEM)を提案する。
GEMは、オブジェクト間の重要な空間関係を示すグラフと、グラフの各エッジに対する状態同値写像による空間目標仕様を表す。
GEMは,学習目標表現の高次ベースラインに対する一般化性を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-11-24T18:59:06Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - Evolving Domain Generalization [14.072505551647813]
本研究は, 発生源データだけでなく, その進化パターンを利用して, 未知のタスクのモデルを生成する, 経験的領域一般化(EDG)シナリオを定式化し, 研究する。
我々の理論的結果は,グローバルに一貫した方向写像関数を学習することにより,2つの連続したタスク間の関係をモデル化する利点を明らかにする。
また,本分析では,DDG問題をメタラーニング方式で解くことを提案する。
論文 参考訳(メタデータ) (2022-05-31T18:28:15Z) - Provably Efficient Causal Model-Based Reinforcement Learning for
Systematic Generalization [30.456180468318305]
逐次的意思決定設定では、エージェントは、おそらく無限の、大きな環境の集合に対して体系的な一般化を達成することを目的としている。
本稿では,因果的視点を用いた体系的一般化の抽出可能な定式化について述べる。
特定の構造的仮定の下では、望まざる計画誤差を避けられない準最適項まで保証する単純な学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-14T08:34:51Z) - DisCo RL: Distribution-Conditioned Reinforcement Learning for
General-Purpose Policies [116.12670064963625]
分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。
DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
論文 参考訳(メタデータ) (2021-04-23T16:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。