論文の概要: Unsupervised Reward Shaping for a Robotic Sequential Picking Task from
Visual Observations in a Logistics Scenario
- arxiv url: http://arxiv.org/abs/2209.12350v1
- Date: Sun, 25 Sep 2022 23:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 18:29:16.913460
- Title: Unsupervised Reward Shaping for a Robotic Sequential Picking Task from
Visual Observations in a Logistics Scenario
- Title(参考訳): ロジスティクスシナリオにおける視覚観察によるロボットシーケンシャルピッキングタスクに対する教師なし報酬形成
- Authors: Vittorio Giammarino
- Abstract要約: 我々は、シーケンシャルなピック・アンド・プレイス・タスクとしてモデル化された、ロジスティクス分野の典型的なアンロード問題に焦点を当てる。
現代の機械学習技術は、古典的なシステムよりもうまく機能している。
我々は、新しい教師なしリワード整形アルゴリズムを提案し、理論的に動機づける。
- 参考スコア(独自算出の注目度): 1.713291434132985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We focus on an unloading problem, typical of the logistics sector, modeled as
a sequential pick-and-place task. In this type of task, modern machine learning
techniques have shown to work better than classic systems since they are more
adaptable to stochasticity and better able to cope with large uncertainties.
More specifically, supervised and imitation learning have achieved outstanding
results in this regard, with the shortcoming of requiring some form of
supervision which is not always obtainable for all settings. On the other hand,
reinforcement learning (RL) requires much milder form of supervision but still
remains impracticable due to its inefficiency. In this paper, we propose and
theoretically motivate a novel Unsupervised Reward Shaping algorithm from
expert's observations which relaxes the level of supervision required by the
agent and works on improving RL performance in our task.
- Abstract(参考訳): 我々は,ロジスティックセクタの典型的なアンロード問題に焦点をあて,逐次的なピック・アンド・プレースタスクとしてモデル化した。
この種のタスクでは、現代の機械学習技術は、確率性に適応し、大きな不確実性に対処できるため、古典的なシステムよりもうまく機能することが示されている。
より具体的には、教師付きおよび模倣学習は、すべての設定で常に入手できないある種の監督を必要とするという欠点から、この点において卓越した結果を得た。
一方、強化学習(RL)はより軽度の監督を必要とするが、その非効率性のため、依然として実行不可能である。
本稿では, エージェントが要求する監督のレベルを緩和し, タスクにおけるRL性能の向上に取り組む専門家の観察から, 新規な教師なしリワード整形アルゴリズムを提案し, 理論的に動機づける。
関連論文リスト
- On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文 参考訳(メタデータ) (2023-06-21T05:26:28Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。
本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。
これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文 参考訳(メタデータ) (2022-08-25T21:08:01Z) - Transfer RL across Observation Feature Spaces via Model-Based
Regularization [9.660642248872973]
多くの強化学習(RL)アプリケーションでは、観察空間は人間の開発者によって指定され、物理的実現によって制限される。
そこで本研究では,提案手法を用いて,ソースタスク中の潜時空間のダイナミクスを抽出し,対象タスクに動的モデルを転送するアルゴリズムを提案する。
本アルゴリズムは,タスク間マッピングや目標タスクの事前知識を使わずに,観測空間の劇的な変化に有効である。
論文 参考訳(メタデータ) (2022-01-01T22:41:19Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。