論文の概要: Learning Online from Corrective Feedback: A Meta-Algorithm for Robotics
- arxiv url: http://arxiv.org/abs/2104.01021v1
- Date: Fri, 2 Apr 2021 12:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 18:17:38.071146
- Title: Learning Online from Corrective Feedback: A Meta-Algorithm for Robotics
- Title(参考訳): 修正フィードバックからオンライン学習:ロボティクスのためのメタアルゴリズム
- Authors: Matthew Schmittle, Sanjiban Choudhury, Siddhartha S. Srinivasa
- Abstract要約: 模倣学習(il)における鍵となる課題は、最適な状態行動のデモンストレーションは教師が提供するのが難しいことである。
状態行動のデモンストレーションの代替として、教師は好みや報酬などの修正的なフィードバックを提供することができる。
このアプローチは、さまざまなノイズフィードバックから素早く学習できることを示します。
- 参考スコア(独自算出の注目度): 24.863665993509997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key challenge in Imitation Learning (IL) is that optimal state actions
demonstrations are difficult for the teacher to provide. For example in
robotics, providing kinesthetic demonstrations on a robotic manipulator
requires the teacher to control multiple degrees of freedom at once. The
difficulty of requiring optimal state action demonstrations limits the space of
problems where the teacher can provide quality feedback. As an alternative to
state action demonstrations, the teacher can provide corrective feedback such
as their preferences or rewards. Prior work has created algorithms designed to
learn from specific types of noisy feedback, but across teachers and tasks
different forms of feedback may be required. Instead we propose that in order
to learn from a diversity of scenarios we need to learn from a variety of
feedback. To learn from a variety of feedback we make the following insight:
the teacher's cost function is latent and we can model a stream of feedback as
a stream of loss functions. We then use any online learning algorithm to
minimize the sum of these losses. With this insight we can learn from a
diversity of feedback that is weakly correlated with the teacher's true cost
function. We unify prior work into a general corrective feedback meta-algorithm
and show that regardless of feedback we can obtain the same regret bounds. We
demonstrate our approach by learning to perform a household navigation task on
a robotic racecar platform. Our results show that our approach can learn
quickly from a variety of noisy feedback.
- Abstract(参考訳): 模倣学習(il)における鍵となる課題は、最適な状態行動のデモンストレーションは教師が提供するのが難しいことである。
例えばロボット工学では、ロボットマニピュレータに審美的なデモを提供するため、教師は一度に複数の自由度を制御する必要がある。
最適な状態動作のデモンストレーションを必要とすることの難しさは、教師が品質フィードバックを提供できる問題の範囲を制限する。
状態行動のデモンストレーションの代替として、教師は好みや報酬などの修正的なフィードバックを提供することができる。
従来の作業では,特定のノイズフィードバックから学習するアルゴリズムが開発されていたが,教師やタスクによって,さまざまな形式のフィードバックが必要になる可能性がある。
代わりに、さまざまなシナリオから学ぶためには、さまざまなフィードバックから学ぶ必要があることを提案します。
教師のコスト関数は潜伏しており、損失関数のストリームとしてフィードバックの流れをモデル化することができる。
次に、オンライン学習アルゴリズムを使用して、これらの損失の合計を最小化します。
この洞察により、教師の真のコスト関数と弱い相関関係にあるフィードバックの多様性から学ぶことができる。
先行研究を一般的な修正的フィードバックメタアルゴリズムに統合し、フィードバックに関係なく、同じ後悔の限界を得ることができることを示す。
ロボットレースカープラットフォーム上で家庭用ナビゲーションタスクを実行することを学ぶことで、我々のアプローチを実証する。
その結果,提案手法は様々なノイズフィードバックから素早く学習できることがわかった。
関連論文リスト
- CANDERE-COACH: Reinforcement Learning from Noisy Feedback [12.232688822099325]
CANDERE-COACHアルゴリズムは、非最適教師によるノイズフィードバックから学習することができる。
本稿では,教師のフィードバックの最大40%が誤りであった場合,RLエージェントが学習を成功させるためのノイズフィルタリング機構を提案する。
論文 参考訳(メタデータ) (2024-09-23T20:14:12Z) - ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
ビデオのスキル評価の現在の方法は、スコアのみを提供し、デモを比較することである。
本研究では,身体活動を行う人の映像から行動可能なフィードバックを生成する新しい手法を提案する。
提案手法は,マルチモーダルな入力の組み合わせを解析し,フルスペクトルで実用的なコーチングを出力することができる。
論文 参考訳(メタデータ) (2024-08-01T16:13:07Z) - Generating Feedback-Ladders for Logical Errors in Programming using Large Language Models [2.1485350418225244]
大規模言語モデル(LLM)に基づく手法は,プログラムの代入に対するフィードバック生成において大きな可能性を秘めている。
本稿では、LLMを用いて「フィードバック・ラダー」、すなわち、同じ問題とサブミッションのペアに対する複数のレベルのフィードバックを生成する。
本研究では, 学生, 教育者, 研究者によるユーザスタディにより, 生成したフィードバックラダーの品質を評価する。
論文 参考訳(メタデータ) (2024-05-01T03:52:39Z) - YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - Active teacher selection for reinforcement learning from human feedback [14.009227941725783]
人間のフィードバックからの強化学習(RLHF)により、機械学習システムは人間のフィードバックから目的を学ぶことができる。
教師の合理性、専門性、コストの相違をモデル化するHidden Utility Banditフレームワークを提案する。
我々は、さまざまなソリューションアルゴリズムを開発し、それらを紙レコメンデーションシステムと新型コロナウイルスワクチンテストという2つの現実世界の領域に適用する。
論文 参考訳(メタデータ) (2023-10-23T18:54:43Z) - Active Reward Learning from Multiple Teachers [17.10187575303075]
逆学習アルゴリズムは人間のフィードバックを利用して報酬関数を推論し、AIシステムのトレーニングに使用される。
この人間のフィードバックはしばしば好みの比較であり、人間の教師はAI行動のいくつかのサンプルを比較し、その目的を最も達成したと考えるものを選択する。
報酬学習は通常、すべてのフィードバックは1人の教師から来ると仮定するが、実際には、これらのシステムは複数の教師に十分なトレーニングデータを集めるよう問い合わせることが多い。
論文 参考訳(メタデータ) (2023-03-02T01:26:53Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。