論文の概要: Do's and Don'ts: Learning Desirable Skills with Instruction Videos
- arxiv url: http://arxiv.org/abs/2406.00324v2
- Date: Thu, 23 Jan 2025 01:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:56:48.862877
- Title: Do's and Don'ts: Learning Desirable Skills with Instruction Videos
- Title(参考訳): Do's and Don'ts: インストラクションビデオによる望ましいスキルの学習
- Authors: Hyunseung Kim, Byungkun Lee, Hojoon Lee, Dongyoon Hwang, Donghu Kim, Jaegul Choo,
- Abstract要約: 本稿では,2段階からなる教示に基づくスキル発見アルゴリズムであるDoDontを提案する。
望ましい振る舞いを効果的に学習し、複雑な継続的制御タスクで望ましくないものを避ける。
- 参考スコア(独自算出の注目度): 28.352436966065863
- License:
- Abstract: Unsupervised skill discovery is a learning paradigm that aims to acquire diverse behaviors without explicit rewards. However, it faces challenges in learning complex behaviors and often leads to learning unsafe or undesirable behaviors. For instance, in various continuous control tasks, current unsupervised skill discovery methods succeed in learning basic locomotions like standing but struggle with learning more complex movements such as walking and running. Moreover, they may acquire unsafe behaviors like tripping and rolling or navigate to undesirable locations such as pitfalls or hazardous areas. In response, we present DoDont (Do's and Don'ts), an instruction-based skill discovery algorithm composed of two stages. First, in an instruction learning stage, DoDont leverages action-free instruction videos to train an instruction network to distinguish desirable transitions from undesirable ones. Then, in the skill learning stage, the instruction network adjusts the reward function of the skill discovery algorithm to weight the desired behaviors. Specifically, we integrate the instruction network into a distance-maximizing skill discovery algorithm, where the instruction network serves as the distance function. Empirically, with less than 8 instruction videos, DoDont effectively learns desirable behaviors and avoids undesirable ones across complex continuous control tasks. Code and videos are available at https://mynsng.github.io/dodont/
- Abstract(参考訳): 教師なしスキル発見は、明確な報酬なしに多様な行動を取得することを目的とした学習パラダイムである。
しかし、複雑な振る舞いを学習する際の課題に直面し、多くの場合、安全でない振る舞いや望ましくない振る舞いを学ぶことにつながる。
例えば、様々な継続的制御タスクにおいて、現在の教師なしスキル発見手法は、立ち上がりのような基本的な動きを学ぶのに成功するが、歩行やランニングのようなより複雑な動きを学ぶのに苦労する。
さらに、トリップや転がりといった危険な行動や、落とし穴や危険地域といった望ましくない場所への移動も可能である。
そこで本研究では,2段階からなる教示に基づくスキル発見アルゴリズムであるDoDont(Do's and Don'ts)を提案する。
第一に、教示学習の段階では、DoDontはアクションフリーの教示ビデオを利用して、望ましくない教示ネットワークを訓練し、望ましい移行と望ましくない遷移を区別する。
そして、スキル学習段階において、指導ネットワークは、スキル発見アルゴリズムの報酬関数を調整し、所望の行動を重み付けする。
具体的には、命令ネットワークを距離最大化スキル発見アルゴリズムに統合し、命令ネットワークが距離関数として機能する。
実証的には、8つ未満のインストラクションビデオで、DoDontは望ましい振る舞いを効果的に学習し、複雑な継続的制御タスクで望ましくないものを避ける。
コードとビデオはhttps://mynsng.github.io/dodont/で公開されている。
関連論文リスト
- LOTUS: Continual Imitation Learning for Robot Manipulation Through Unsupervised Skill Discovery [29.774700960178624]
我々は,ロボットが新しい操作タスクを継続的に,効率的に学習することを可能にする,連続的な模倣学習アルゴリズムであるLOTUSを紹介する。
継続的なスキル発見は、既存のスキルを更新して、以前のタスクを忘れないようにし、新しいタスクを解決するための新しいスキルを追加する。
総合的な実験の結果、LOTUSは最先端のベースラインを11%以上の成功率で上回っていることがわかった。
論文 参考訳(メタデータ) (2023-11-03T17:38:35Z) - Controllability-Aware Unsupervised Skill Discovery [94.19932297743439]
本稿では,非教師なしスキル発見手法であるCSD(Controlability-aware Skill Discovery)を導入する。
CSDの鍵となるコンポーネントは制御可能性を考慮した距離関数であり、現在のスキルで達成が難しい状態遷移により大きな値を割り当てる。
ロボット操作と移動環境の6つの実験結果から、CSDは監督なしで多様な複雑なスキルを発見できることが示された。
論文 参考訳(メタデータ) (2023-02-10T08:03:09Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Lipschitz-constrained Unsupervised Skill Discovery [91.51219447057817]
LSD(Lipschitz-Constrained Skill Discovery)は、エージェントがより多様性があり、ダイナミックで、より遠縁なスキルを発見することを奨励する。
LSDは7つの下流タスクにおいて、スキルの多様性、状態空間のカバレッジ、パフォーマンスという点で、従来のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-02-02T08:29:04Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z) - Hierarchical Affordance Discovery using Intrinsic Motivation [69.9674326582747]
本研究では,移動ロボットの価格学習を支援するために,本質的なモチベーションを用いたアルゴリズムを提案する。
このアルゴリズムは、事前にプログラムされたアクションなしで、相互に関連のある価格を自律的に発見し、学習し、適応することができる。
一度学習すると、これらの余裕はアルゴリズムによって様々な困難を伴うタスクを実行するために一連のアクションを計画するために使われる。
論文 参考訳(メタデータ) (2020-09-23T07:18:21Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Continual Learning: Tackling Catastrophic Forgetting in Deep Neural
Networks with Replay Processes [0.0]
連続的なアルゴリズムは、忘れずに学習経験のカリキュラムで知識を蓄積し、改善するように設計されている。
生成的再生は、過去の学習経験を記憶するための生成モデルで再現する。
連続学習には非常に有望な手法であることを示す。
論文 参考訳(メタデータ) (2020-07-01T13:44:33Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。