論文の概要: An Efficient Generalizable Framework for Visuomotor Policies via
Control-aware Augmentation and Privilege-guided Distillation
- arxiv url: http://arxiv.org/abs/2401.09258v1
- Date: Wed, 17 Jan 2024 15:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 15:38:04.687000
- Title: An Efficient Generalizable Framework for Visuomotor Policies via
Control-aware Augmentation and Privilege-guided Distillation
- Title(参考訳): コントロール・アウェア・アジュメンテーションとプリビレージ誘導蒸留によるビジュモータ政策の効率化
- Authors: Yinuo Zhao, Kun Wu, Tianjiao Yi, Zhiyuan Xu, Xiaozhu Ju, Zhengping
Che, Qinru Qiu, Chi Harold Liu, Jian Tang
- Abstract要約: Visuomotor Policyは、高次元視覚観察から直接制御メカニズムを学ぶ。
データ拡張は、データの多様性を豊かにすることで一般化ギャップを埋める有望な方法として現れる。
本稿では,ビジュモータ政策の一般化能力の向上と,2つの側面からトレーニング安定性を維持することを提案する。
- 参考スコア(独自算出の注目度): 47.61391583947082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visuomotor policies, which learn control mechanisms directly from
high-dimensional visual observations, confront challenges in adapting to new
environments with intricate visual variations. Data augmentation emerges as a
promising method for bridging these generalization gaps by enriching data
variety. However, straightforwardly augmenting the entire observation shall
impose excessive burdens on policy learning and may even result in performance
degradation. In this paper, we propose to improve the generalization ability of
visuomotor policies as well as preserve training stability from two aspects: 1)
We learn a control-aware mask through a self-supervised reconstruction task
with three auxiliary losses and then apply strong augmentation only to those
control-irrelevant regions based on the mask to reduce the generalization gaps.
2) To address training instability issues prevalent in visual reinforcement
learning (RL), we distill the knowledge from a pretrained RL expert processing
low-level environment states, to the student visuomotor policy. The policy is
subsequently deployed to unseen environments without any further finetuning. We
conducted comparison and ablation studies across various benchmarks: the
DMControl Generalization Benchmark (DMC-GB), the enhanced Robot Manipulation
Distraction Benchmark (RMDB), and a specialized long-horizontal drawer-opening
robotic task. The extensive experimental results well demonstrate the
effectiveness of our method, e.g., showing a 17\% improvement over previous
methods in the video-hard setting of DMC-GB.
- Abstract(参考訳): 高次元視覚観察から直接制御機構を学習するビジュモータポリシーは、複雑な視覚変化を伴う新しい環境に適応する上での課題に直面する。
データ拡張は、データの多様性を豊かにすることで、これらの一般化ギャップをブリッジするための有望な方法として現れます。
しかし、直接的に観察全体を増強することは、政策学習に過度な負担を課し、パフォーマンスの低下につながる可能性がある。
本稿では,視覚運動政策の一般化能力の向上と,トレーニングの安定性の維持を両側面から提案する。
1)3つの補助的損失を伴う自己監督型再建作業を通じて制御意識マスクを学習し,マスクに基づく制御非関連領域にのみ強力な拡張を適用して一般化ギャップを低減させる。
2) 視覚強化学習(RL)におけるトレーニング不安定性問題に対処するため, 訓練済みのRLエキスパートによる低レベル環境状態処理から, 学生ビズモータ政策まで知識を抽出した。
ポリシーはその後、それ以上の微調整をすることなく、見えない環境にデプロイされる。
dmcontrol generalization benchmark (dmc-gb), enhanced robot manipulation distraction benchmark (rmdb), and a special long-horizontal drawer-opening robot task (dmc-gb) などのベンチマークで比較・アブレーションを行った。
実験結果より,dmc-gbの映像ハード設定において,従来の方法よりも17\%改善が見られた。
関連論文リスト
- DEAR: Disentangled Environment and Agent Representations for Reinforcement Learning without Reconstruction [4.813546138483559]
強化学習(RL)アルゴリズムは視覚的な観察からロボット制御タスクを学習することができるが、大量のデータを必要とすることが多い。
本稿では,その形状に関するエージェントの知識が,視覚的RL法のサンプル効率を向上させる方法について検討する。
本稿では,エージェントのセグメンテーションマスクを監督対象とする,分散環境とエージェント表現という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T09:15:21Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Don't Touch What Matters: Task-Aware Lipschitz Data Augmentation for
Visual Reinforcement Learning [27.205521177841568]
視覚強化学習(RL)のためのタスク対応リプシッツデータ拡張(TLDA)を提案する。
TLDAは、大きなリプシッツ定数を持つタスク関連画素を明確に識別し、タスク関連画素のみを拡大する。
3つの異なるビジュアルコントロールベンチマークにおいて、従来の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-02-21T04:22:07Z) - Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under
Data Augmentation [25.493902939111265]
オフ・ポリティクス強化学習アルゴリズムにおけるデータ強化における不安定性の原因について検討する。
本稿では,このアルゴリズムを拡張の下で安定化するための,シンプルで効果的な手法を提案する。
本手法は,画像ベースRLの最先端手法と競合し,ConvNetの安定性とサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2021-07-01T17:58:05Z) - SECANT: Self-Expert Cloning for Zero-Shot Generalization of Visual
Policies [87.78260740602674]
総合化は強化学習(RL)の長年にわたる課題である。
本研究では,ゼロショットの一般化を目標としたロバストなポリシー学習を,大規模な分布シフトを伴う視覚環境に対して検討する。
本稿では,2段階のイメージ拡張を利用して,ロバスト表現学習をポリシー最適化から切り離す,新たな自己経験的クローニング手法であるSECANTを提案する。
論文 参考訳(メタデータ) (2021-06-17T17:28:18Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - Unsupervised Visual Attention and Invariance for Reinforcement Learning [25.673868326662024]
我々は,タスクに無関係に干渉要因を分散させる独立したモジュールを開発し,視覚に基づく強化学習政策の「クリーン」な観察を行う。
すべてのコンポーネントは、手動アノテーションや環境内部へのアクセスなしに、監視されていない方法で最適化されます。
VAIは強力な一般化能力を示し、DeepMind Controlのベンチマークでは現在の最先端(SOTA)メソッドを15%から49%上回っている。
論文 参考訳(メタデータ) (2021-04-07T05:28:01Z) - Robust Deep Reinforcement Learning via Multi-View Information Bottleneck [7.188571996124112]
マルチビュー情報ボトルネック(MIB)の原理に基づく補助目標を提案する。
これにより、未来を予測的かつタスク非関連な気遣いに敏感な学習表現が促進される。
背景が自然な映像に置き換えられた場合でも、視覚制御の課題に対してSOTAの性能を発揮できることを実証します。
論文 参考訳(メタデータ) (2021-02-26T02:24:36Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。