論文の概要: Learning on the Job: Self-Rewarding Offline-to-Online Finetuning for
Industrial Insertion of Novel Connectors from Vision
- arxiv url: http://arxiv.org/abs/2210.15206v1
- Date: Thu, 27 Oct 2022 06:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 15:50:03.599517
- Title: Learning on the Job: Self-Rewarding Offline-to-Online Finetuning for
Industrial Insertion of Novel Connectors from Vision
- Title(参考訳): 職種学習:視覚から新しいコネクタを工業的に導入するためのオフライン・オフラインファインタニング
- Authors: Ashvin Nair, Brian Zhu, Gokul Narayanan, Eugen Solowjow, Sergey Levine
- Abstract要約: ソケットにコネクタを挿入したりネジをセットしたりといった産業用挿入タスクの設定における問題点について検討する。
提案手法は,50種類のコネクタで事前学習し,学習した報酬関数を介して新たなコネクタに微調整できることを示す。
- 参考スコア(独自算出の注目度): 68.94344689895416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based methods in robotics hold the promise of generalization, but
what can be done if a learned policy does not generalize to a new situation? In
principle, if an agent can at least evaluate its own success (i.e., with a
reward classifier that generalizes well even when the policy does not), it
could actively practice the task and finetune the policy in this situation. We
study this problem in the setting of industrial insertion tasks, such as
inserting connectors in sockets and setting screws. Existing algorithms rely on
precise localization of the connector or socket and carefully managed physical
setups, such as assembly lines, to succeed at the task. But in unstructured
environments such as homes or even some industrial settings, robots cannot rely
on precise localization and may be tasked with previously unseen connectors.
Offline reinforcement learning on a variety of connector insertion tasks is a
potential solution, but what if the robot is tasked with inserting previously
unseen connector? In such a scenario, we will still need methods that can
robustly solve such tasks with online practice. One of the main observations we
make in this work is that, with a suitable representation learning and domain
generalization approach, it can be significantly easier for the reward function
to generalize to a new but structurally similar task (e.g., inserting a new
type of connector) than for the policy. This means that a learned reward
function can be used to facilitate the finetuning of the robot's policy in
situations where the policy fails to generalize in zero shot, but the reward
function generalizes successfully. We show that such an approach can be
instantiated in the real world, pretrained on 50 different connectors, and
successfully finetuned to new connectors via the learned reward function.
Videos can be viewed at https://sites.google.com/view/learningonthejob
- Abstract(参考訳): ロボット工学における学習ベースの手法は、一般化の約束を守るが、学習方針が新しい状況に一般化しなかったらどうするか?
原則として、エージェントが自分の成功を少なくとも評価できる場合(つまり、ポリシーがそうでなくてもうまく一般化できる報酬分類器)、この状況において積極的にタスクを実行し、ポリシーを微調整することができる。
本研究は,ソケットへのコネクタ挿入やネジの設置など,産業用挿入作業の設定における課題である。
既存のアルゴリズムはコネクタやソケットの正確な位置決めと、アセンブリラインなどの物理的な設定を注意深く管理してタスクを成功させる。
しかし、住宅などの非構造環境やいくつかの産業環境では、ロボットは正確な位置決めに頼らず、以前は見つからなかったコネクターで処理される可能性がある。
様々なコネクタ挿入タスクのオフライン強化学習は潜在的な解決法だが、もしロボットが以前に見つからなかったコネクタ挿入をタスクしているとしたらどうだろう?
このようなシナリオでは、オンラインプラクティスでそのようなタスクを堅牢に解決できる方法が必要になります。
この仕事における主要な観察の1つは、適切な表現学習とドメイン一般化のアプローチにより、報酬関数がポリシーよりも新しくて構造的に類似したタスク(例えば、新しいタイプのコネクタを挿入する)に一般化することがはるかに容易であるということです。
つまり、学習された報酬関数は、方針がゼロショットで一般化できない状況において、ロボットのポリシーの微調整を容易にすることができるが、報奨関数はうまく一般化する。
このようなアプローチは実世界でインスタンス化でき、50の異なるコネクタで事前学習でき、学習した報酬関数を介して新しいコネクタに微調整できる。
ビデオはhttps://sites.google.com/view/learningonthejobで見ることができる。
関連論文リスト
- Vision Transformer Adapters for Generalizable Multitask Learning [61.79647180647685]
一般化可能なタスク親和性を学習する最初のマルチタスク・ビジョン・トランスフォーマー・アダプタを提案する。
我々のアダプタはパラメータ効率の良い方法で複数の高密度視覚タスクを同時に解くことができる。
並行メソッドとは対照的に、新しいタスクやドメインが追加されるたびに、再トレーニングや微調整は不要です。
論文 参考訳(メタデータ) (2023-08-23T18:40:48Z) - Learning Generalizable Tool Use with Non-rigid Grasp-pose Registration [29.998917158604694]
本稿では,ツール使用行動の強化学習を可能にする新しい手法を提案する。
私たちのアプローチは、ひとつのデモだけで新しいカテゴリのツールの操作を学ぶためのスケーラブルな方法を提供します。
学習したポリシーは複雑なツールの使用タスクを解決し、テスト時に見えないツールに一般化する。
論文 参考訳(メタデータ) (2023-07-31T08:49:11Z) - Contrastive Learning for Cross-Domain Open World Recognition [17.660958043781154]
進化する能力は、知識が製造者によって注入されるものに限定されない貴重な自律エージェントにとって基本的なものである。
新しいクラスをインクリメンタルに含めるのに適した機能空間を学習し、様々な視覚領域にまたがる知識を捉えることができることを示す。
本手法は,学習エピソードごとの効果的な停止基準を付与し,新たな自己ペースしきい値設定戦略を活用する。
論文 参考訳(メタデータ) (2022-03-17T11:23:53Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Latent Skill Planning for Exploration and Transfer [49.25525932162891]
本稿では,この2つの手法を1つの強化学習エージェントに統合する方法について検討する。
テスト時の高速適応に部分的償却の考え方を活用する。
私たちは、困難なロコモーションタスクのスイートでデザイン決定のメリットを実演しています。
論文 参考訳(メタデータ) (2020-11-27T18:40:03Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。