論文の概要: Learning Task-Driven Control Policies via Information Bottlenecks
- arxiv url: http://arxiv.org/abs/2002.01428v1
- Date: Tue, 4 Feb 2020 17:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 02:50:54.697351
- Title: Learning Task-Driven Control Policies via Information Bottlenecks
- Title(参考訳): 情報基盤によるタスク駆動型制御の学習
- Authors: Vincent Pacelli and Anirudha Majumdar
- Abstract要約: 本稿では,多機能な感覚機能を備えたロボットシステムのためのタスク駆動制御ポリシーを合成するための強化学習手法を提案する。
標準的な強化学習アルゴリズムは、通常、システムの状態全体とリッチなセンサー観測に制御アクションを密に結合するポリシーを生成する。
対照的に、我々が提示するアプローチは、制御アクションの計算に使用されるタスク駆動表現を作成することを学ぶ。
- 参考スコア(独自算出の注目度): 7.271970309320002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a reinforcement learning approach to synthesizing
task-driven control policies for robotic systems equipped with rich sensory
modalities (e.g., vision or depth). Standard reinforcement learning algorithms
typically produce policies that tightly couple control actions to the entirety
of the system's state and rich sensor observations. As a consequence, the
resulting policies can often be sensitive to changes in task-irrelevant
portions of the state or observations (e.g., changing background colors). In
contrast, the approach we present here learns to create a task-driven
representation that is used to compute control actions. Formally, this is
achieved by deriving a policy gradient-style algorithm that creates an
information bottleneck between the states and the task-driven representation;
this constrains actions to only depend on task-relevant information. We
demonstrate our approach in a thorough set of simulation results on multiple
examples including a grasping task that utilizes depth images and a
ball-catching task that utilizes RGB images. Comparisons with a standard policy
gradient approach demonstrate that the task-driven policies produced by our
algorithm are often significantly more robust to sensor noise and
task-irrelevant changes in the environment.
- Abstract(参考訳): 本稿では,視覚や深度などの感覚の豊富なロボットシステムに対して,タスク駆動制御ポリシを合成するための強化学習手法を提案する。
標準強化学習アルゴリズムは通常、システムの状態全体とリッチなセンサー観測に制御アクションを密結合するポリシーを生成する。
その結果、結果として得られるポリシーは、状態や観察(背景の色の変化など)のタスク非関連部分の変化に敏感になることが多い。
対照的に、ここで紹介するアプローチは、制御アクションの計算に使われるタスク駆動表現を作成することを学びます。
形式的には、これは状態とタスク駆動型表現の間の情報ボトルネックを生成するポリシー勾配スタイルのアルゴリズムを導出することで達成される。
本稿では,深度画像を用いた把握タスクやRGB画像を用いた球キャッチタスクなど,複数の例を対象としたシミュレーション結果の完全セットで示す。
標準方針勾配法との比較により,我々のアルゴリズムが生み出すタスク駆動型政策は,センサノイズやタスク非関連な環境変化に対して,はるかに堅牢であることが示された。
関連論文リスト
- Imagination Policy: Using Generative Point Cloud Models for Learning Manipulation Policies [25.760946763103483]
Imagination Policy(Imagination Policy)は,高精度ピック・アンド・プレイス・タスクを解くための新しいマルチタスク・キー・フレーム・ポリシー・ネットワークである。
アクションを直接学習する代わりに、Imagination Policy は所望の状態を想像するために点雲を生成し、それが厳密なアクション推定を用いてアクションに変換される。
論文 参考訳(メタデータ) (2024-06-17T17:00:41Z) - Learning Generalizable Manipulation Policies with Object-Centric 3D
Representations [65.55352131167213]
GROOTは、オブジェクト中心と3D事前の堅牢なポリシーを学ぶための模倣学習手法である。
ビジョンベースの操作のための初期訓練条件を超えて一般化するポリシーを構築する。
GROOTのパフォーマンスは、バックグラウンドの変更、カメラの視点シフト、新しいオブジェクトインスタンスの存在に関する一般化に優れています。
論文 参考訳(メタデータ) (2023-10-22T18:51:45Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - Distilling Motion Planner Augmented Policies into Visual Control
Policies for Robot Manipulation [26.47544415550067]
我々は,国家ベースのモーションプランナ拡張ポリシーを視覚制御ポリシーに蒸留することを提案する。
閉塞環境における3つの操作課題について評価を行った。
我々のフレームワークはサンプリング効率が高く、最先端のアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2021-11-11T18:52:00Z) - Trajectory-based Reinforcement Learning of Non-prehensile Manipulation
Skills for Semi-Autonomous Teleoperation [18.782289957834475]
本稿では,RGB-Dセンサを用いたピックアップ・アンド・プレイスタスクのための半自律遠隔操作フレームワークを提案する。
トラジェクトリに基づく強化学習を用いて、非包括的操作を学習し、物体を再構成する。
提案手法は,握り時間の観点から手動キーボード制御よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-09-27T14:27:28Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Robotic Arm Control and Task Training through Deep Reinforcement
Learning [6.249276977046449]
我々は,信頼地域政策最適化と正規化アドバンテージ関数を用いたディープQ-ネットワークが,Deep Deterministic Policy GradientやVanilla Policy Gradientよりも優れていることを示す。
実際の実験では、我々の警察がシミュレーションで正しく訓練されたとしても、ほとんど変化なしに実際の環境に移動して実行できることが示されます。
論文 参考訳(メタデータ) (2020-05-06T07:34:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。