論文の概要: Refactoring Policy for Compositional Generalizability using
Self-Supervised Object Proposals
- arxiv url: http://arxiv.org/abs/2011.00971v1
- Date: Mon, 26 Oct 2020 17:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 17:46:49.247032
- Title: Refactoring Policy for Compositional Generalizability using
Self-Supervised Object Proposals
- Title(参考訳): 自己教師付きオブジェクト提案を用いた合成一般化のためのリファクタリングポリシー
- Authors: Tongzhou Mu, Jiayuan Gu, Zhiwei Jia, Hao Tang, Hao Su
- Abstract要約: 構成的一般化性を持つ政策の学習方法について研究する。
本稿では,高水準の教員政策を,帰納的バイアスの強い一般化可能な学生政策に変換する2段階の枠組みを提案する。
- 参考スコア(独自算出の注目度): 35.281026812837105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how to learn a policy with compositional generalizability. We
propose a two-stage framework, which refactorizes a high-reward teacher policy
into a generalizable student policy with strong inductive bias. Particularly,
we implement an object-centric GNN-based student policy, whose input objects
are learned from images through self-supervised learning. Empirically, we
evaluate our approach on four difficult tasks that require compositional
generalizability, and achieve superior performance compared to baselines.
- Abstract(参考訳): 我々は構成的一般化性のある政策の学習方法を研究する。
本稿では,高水準の教員政策を,帰納的バイアスの強い一般化可能な学生政策にリファクタリングする2段階の枠組みを提案する。
特に,自己教師型学習を通じて画像から入力対象を学習する,オブジェクト中心のGNNベースの学生ポリシーを実装した。
経験的に,構成の一般化性を必要とする4つの課題に対するアプローチを評価し,ベースラインよりも優れた性能を実現する。
関連論文リスト
- On the benefits of pixel-based hierarchical policies for task generalization [7.207480346660617]
強化学習実践者は、特に画像に基づく観察空間において、階層的な政策を避けることが多い。
画素からのマルチタスクロボット制御実験により階層構造の利点を解析する。
論文 参考訳(メタデータ) (2024-07-27T01:26:26Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Attaining Interpretability in Reinforcement Learning via Hierarchical
Primitive Composition [3.1078562713129765]
本稿では,従来の課題を階層構造に分解して軽減する階層型強化学習アルゴリズムを提案する。
提案手法は,6自由度マニピュレータを用いてピック・アンド・プレイス・タスクを解くことで,実際にどのように適用できるかを示す。
論文 参考訳(メタデータ) (2021-10-05T05:59:31Z) - DisCo RL: Distribution-Conditioned Reinforcement Learning for
General-Purpose Policies [116.12670064963625]
分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。
DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
論文 参考訳(メタデータ) (2021-04-23T16:51:58Z) - Regularized Policies are Reward Robust [33.05828095421357]
強化学習(RL)における政策の正規化の効果について検討する。
その結果,正規化目標が求める最適方針は,最悪の対向報酬の下で強化学習問題の最適方針であることがわかった。
以上の結果から,政策の正則化の効果を考察し,堅牢な報酬を通じて探索の理解を深めることができた。
論文 参考訳(メタデータ) (2021-01-18T11:38:47Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。