論文の概要: Offline Distillation for Robot Lifelong Learning with Imbalanced
Experience
- arxiv url: http://arxiv.org/abs/2204.05893v1
- Date: Tue, 12 Apr 2022 15:40:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 12:10:32.313808
- Title: Offline Distillation for Robot Lifelong Learning with Imbalanced
Experience
- Title(参考訳): 不均衡経験を有するロボット生涯学習のためのオフライン蒸留
- Authors: Wenxuan Zhou, Steven Bohez, Jan Humplik, Abbas Abdolmaleki, Dushyant
Rao, Markus Wulfmeier, Tuomas Haarnoja, Nicolas Heess
- Abstract要約: 既存の非政治アルゴリズムは、古い環境で優れたパフォーマンスを維持するために保守的であることと、新しい環境で効率的に学習することの間のトレードオフに苦慮している。
オンラインインタラクションとオフライン蒸留のインターリーブフェーズにトレーニング手順を分離することで,このトレードオフを断ち切るためのオフライン蒸留パイプラインを提案する。
オフライン蒸留パイプラインは、データ収集に影響を与えることなく、遭遇したすべての環境においてより良いパフォーマンスを実現することを示す。
- 参考スコア(独自算出の注目度): 24.865076319227555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots will experience non-stationary environment dynamics throughout their
lifetime: the robot dynamics can change due to wear and tear, or its
surroundings may change over time. Eventually, the robots should perform well
in all of the environment variations it has encountered. At the same time, it
should still be able to learn fast in a new environment. We investigate two
challenges in such a lifelong learning setting: first, existing off-policy
algorithms struggle with the trade-off between being conservative to maintain
good performance in the old environment and learning efficiently in the new
environment. We propose the Offline Distillation Pipeline to break this
trade-off by separating the training procedure into interleaved phases of
online interaction and offline distillation. Second, training with the combined
datasets from multiple environments across the lifetime might create a
significant performance drop compared to training on the datasets individually.
Our hypothesis is that both the imbalanced quality and size of the datasets
exacerbate the extrapolation error of the Q-function during offline training
over the "weaker" dataset. We propose a simple fix to the issue by keeping the
policy closer to the dataset during the distillation phase. In the experiments,
we demonstrate these challenges and the proposed solutions with a simulated
bipedal robot walking task across various environment changes. We show that the
Offline Distillation Pipeline achieves better performance across all the
encountered environments without affecting data collection. We also provide a
comprehensive empirical study to support our hypothesis on the data imbalance
issue.
- Abstract(参考訳): ロボットは生涯を通じて非定常環境のダイナミクスを体験する:ロボットのダイナミクスは、摩耗と涙によって変化するか、あるいはその周囲が時間とともに変化する可能性がある。
最終的には、ロボットは遭遇した環境のあらゆるバリエーションでうまく機能するべきです。
同時に、新しい環境で速く学習できるべきです。
まず、既存のオフポリシーアルゴリズムは、古い環境で優れたパフォーマンスを維持するために保守的であることと、新しい環境で効率的に学習することのトレードオフに苦しむ。
オンラインインタラクションとオフライン蒸留のインターリーブフェーズにトレーニング手順を分離することで,このトレードオフを断ち切るためのオフライン蒸留パイプラインを提案する。
第二に、生涯にわたる複数の環境からのデータセットの組み合わせによるトレーニングは、データセットの個別のトレーニングと比べて大きなパフォーマンス低下を引き起こす可能性がある。
我々の仮説は、データセットの品質とサイズの不均衡が、オフライントレーニング中のQ関数の外挿誤差を悪化させるというものである。
本稿では, 蒸留段階のデータセットにポリシーを近づけることにより, 簡単な解決法を提案する。
実験では,様々な環境変化をシミュレートした2足歩行ロボットによる課題とその解決法を示す。
オフライン蒸留パイプラインは,データ収集に影響を与えることなく,遭遇したすべての環境において優れた性能を実現する。
データ不均衡問題に関する仮説を支持するための総合的な実証的研究も提供する。
関連論文リスト
- Hybrid Transfer Reinforcement Learning: Provable Sample Efficiency from Shifted-Dynamics Data [16.49756378654774]
本稿では,エージェントが動的に移動したソース環境からオフラインデータにアクセスしながら,ターゲット環境で学習するハイブリッドトランスファーRL(HTRL)設定を提案する。
動的シフトに関する情報がなければ、微妙なシフトがあっても、ターゲット環境におけるサンプルの複雑さを減少させることはない。
我々は,問題依存型サンプル複雑性を実現し,純オンラインRLより優れる転送アルゴリズムHySRLを設計する。
論文 参考訳(メタデータ) (2024-11-06T10:14:46Z) - Efficient Data Collection for Robotic Manipulation via Compositional Generalization [70.76782930312746]
本研究では, 環境要因をデータから構成し, 未確認の要因の組み合わせに遭遇した場合に成功できることを示す。
コンポジションを利用したドメイン内データ収集手法を提案する。
ビデオはhttp://iliad.stanford.edu/robot-data-comp/で公開しています。
論文 参考訳(メタデータ) (2024-03-08T07:15:38Z) - Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。
オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。
本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文 参考訳(メタデータ) (2023-10-24T17:46:12Z) - Robot Fleet Learning via Policy Merging [58.5086287737653]
我々はFLEET-MERGEを提案し、艦隊設定における政策を効率的にマージする。
本稿では,FLEET-MERGEがメタワールド環境における50のタスクで訓練されたポリシーの行動を統合することを示す。
合成・接触に富んだロボット操作タスクにおけるフリートポリシー学習のための新しいロボットツール用ベンチマークであるFLEET-TOOLSを導入する。
論文 参考訳(メタデータ) (2023-10-02T17:23:51Z) - CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - Improving Behavioural Cloning with Positive Unlabeled Learning [15.484227081812852]
本稿では,混合品質のロボットデータセットにおける専門家の軌跡を特定するための,新しい反復学習アルゴリズムを提案する。
結果のフィルタデータセットに行動クローンを適用することで、競合するオフライン強化学習と模倣学習ベースラインを上回っます。
論文 参考訳(メタデータ) (2023-01-27T14:17:45Z) - Scalable Modular Synthetic Data Generation for Advancing Aerial Autonomy [2.9005223064604078]
本稿では,自律飛行に適したスケーラブルなAerial Synthetic Data Augmentation (ASDA) フレームワークを提案する。
ASDAは、シーンとデータ拡張を自動的に実行する2つのスクリプト可能なパイプラインを備えた中央データ収集エンジンを拡張している。
多様なデータセットを自動生成する手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-10T04:37:41Z) - Continual Predictive Learning from Videos [100.27176974654559]
本稿では,ビデオ予測の文脈において,新たな連続学習問題について検討する。
本稿では,連続予測学習(Continuousal predictive Learning, CPL)アプローチを提案する。
我々はRoboNetとKTHに基づく2つの新しいベンチマークを構築し、異なるタスクが異なる物理ロボット環境や人間の行動に対応するようにした。
論文 参考訳(メタデータ) (2022-04-12T08:32:26Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - PLAS: Latent Action Space for Offline Reinforcement Learning [18.63424441772675]
オフライン強化学習の目標は、環境とのさらなる相互作用なしに、固定データセットからポリシーを学ぶことである。
既存のオフプライシアルゴリズムでは、アウト・オブ・ディストリビューションアクションによる外挿エラーによる静的データセットのパフォーマンスが制限されている。
提案手法は,各種の連続制御タスクと異なる種類のデータセットに対して,一貫して競合性能を提供することを示す。
論文 参考訳(メタデータ) (2020-11-14T03:38:38Z) - Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic
Reinforcement Learning [109.77163932886413]
本稿では,ロボットによるロボット操作ポリシーを,政治以外の強化学習を通じて微調整することで,新たなバリエーションに適応する方法を示す。
この適応は、タスクをゼロから学習するために必要なデータの0.2%未満を使用する。
事前訓練されたポリシーを適用するという私たちのアプローチは、微調整の過程で大きなパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2020-04-21T17:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。