論文の概要: Bridging the Sim-to-Real Gap from the Information Bottleneck Perspective
- arxiv url: http://arxiv.org/abs/2305.18464v2
- Date: Mon, 14 Oct 2024 09:23:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 21:41:12.326297
- Title: Bridging the Sim-to-Real Gap from the Information Bottleneck Perspective
- Title(参考訳): インフォメーション・ボトルネックの観点からのシム・トゥ・リアルギャップのブリッジ
- Authors: Haoran He, Peilin Wu, Chenjia Bai, Hang Lai, Lingxiao Wang, Ling Pan, Xiaolin Hu, Weinan Zhang,
- Abstract要約: ヒストリカル・インフォメーション・ボトルネック(HIB)と呼ばれる新しい特権知識蒸留法を提案する。
HIBは、変化可能な動的情報を取得することによって、歴史的軌道から特権的な知識表現を学習する。
シミュレーションと実世界の両方のタスクに関する実証実験は、HIBが従来の方法と比較して一般化性を向上させることを示した。
- 参考スコア(独自算出の注目度): 38.845882541261645
- License:
- Abstract: Reinforcement Learning (RL) has recently achieved remarkable success in robotic control. However, most works in RL operate in simulated environments where privileged knowledge (e.g., dynamics, surroundings, terrains) is readily available. Conversely, in real-world scenarios, robot agents usually rely solely on local states (e.g., proprioceptive feedback of robot joints) to select actions, leading to a significant sim-to-real gap. Existing methods address this gap by either gradually reducing the reliance on privileged knowledge or performing a two-stage policy imitation. However, we argue that these methods are limited in their ability to fully leverage the available privileged knowledge, resulting in suboptimal performance. In this paper, we formulate the sim-to-real gap as an information bottleneck problem and therefore propose a novel privileged knowledge distillation method called the Historical Information Bottleneck (HIB). In particular, HIB learns a privileged knowledge representation from historical trajectories by capturing the underlying changeable dynamic information. Theoretical analysis shows that the learned privileged knowledge representation helps reduce the value discrepancy between the oracle and learned policies. Empirical experiments on both simulated and real-world tasks demonstrate that HIB yields improved generalizability compared to previous methods. Videos of real-world experiments are available at https://sites.google.com/view/history-ib .
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は近年, ロボット制御において顕著な成功を収めている。
しかし、RLのほとんどの研究は、特権知識(例えば、動的、周囲、地形)が容易に利用できるシミュレートされた環境で活動している。
逆に、現実のシナリオでは、ロボットエージェントは通常、アクションを選択するためにローカル状態(例えば、ロボット関節の受容的フィードバック)にのみ依存する。
既存の方法は、特権知識への依存を徐々に減らしたり、2段階の政策模倣を行うことによって、このギャップに対処する。
しかし、これらの手法は、利用可能な特権知識を十分に活用できる能力に限られており、結果として準最適性能をもたらすと論じる。
本稿では,情報ボトルネック問題としてシム・トゥ・リアルギャップを定式化し,ヒストリカル・インフォメーション・ボトルネック (HIB) と呼ばれる新たな特権的知識蒸留法を提案する。
特に、HIBは、変化可能な動的情報を取得することによって、歴史的軌跡から特権的な知識表現を学習する。
理論的分析は、学習された特権的知識表現が、託宣と学習した政策の間の価値の相違を減らすのに役立つことを示している。
シミュレーションと実世界の両方のタスクに関する実証実験は、HIBが従来の方法と比較して一般化性を向上させることを示した。
実世界の実験のビデオはhttps://sites.google.com/view/history-ib で公開されている。
関連論文リスト
- On-Robot Bayesian Reinforcement Learning for POMDPs [16.667924736270415]
本稿では,ロボット工学におけるベイズ強化学習を,物理システムのための特殊フレームワークの提案により進める。
この知識を因子表現で捉え、後続の分解を同様の形で示し、最終的にベイズ的枠組みでモデルを定式化する。
次に,モンテカルロ木探索と粒子フィルタリングに基づくサンプルベースオンライン解法を提案する。
論文 参考訳(メタデータ) (2023-07-22T01:16:29Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Explainability in reinforcement learning: perspective and position [1.299941371793082]
本稿では, 説明可能なRL領域における既存手法の体系的概要について述べる。
新しく統合された分類法を提案し、既存の分類を構築・拡張する。
論文 参考訳(メタデータ) (2022-03-22T09:00:13Z) - Robust Learning from Observation with Model Misspecification [33.92371002674386]
イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-12T07:04:06Z) - Practical Imitation Learning in the Real World via Task Consistency Loss [18.827979446629296]
本稿では,機能レベルと行動予測レベルの両方において,シミュレートと実際のアライメントを促進する自己監督的損失を提案する。
我々は、シミュレートとリアルで遠隔操作されたデモンストレーションを16.2時間しか使っていない10のシーンで80%の成功を達成した。
論文 参考訳(メタデータ) (2022-02-03T21:43:06Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a
Survey [0.07366405857677225]
深層強化学習におけるsim-to-realトランスファーの背景について述べる。
本稿では,ドメインランダム化,ドメイン適応,模倣学習,メタラーニング,知識蒸留の3つの主要な手法について概説する。
論文 参考訳(メタデータ) (2020-09-24T21:05:46Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。