論文の概要: Generating Language Corrections for Teaching Physical Control Tasks
- arxiv url: http://arxiv.org/abs/2306.07012v1
- Date: Mon, 12 Jun 2023 10:31:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 15:10:02.739402
- Title: Generating Language Corrections for Teaching Physical Control Tasks
- Title(参考訳): 身体制御タスク指導のための言語修正の生成
- Authors: Megha Srivastava, Noah Goodman, Dorsa Sadigh
- Abstract要約: CORGIは、物理制御タスクのための言語修正を生成するために訓練されたモデルである。
CORGIは(i)新しい学生軌跡に対する有効なフィードバックを生成でき、(ii)新しい制御ダイナミクスを持つドメインのベースラインを上回り、(iii)インタラクティブな描画タスクにおける生徒の学習を改善することができることを示す。
- 参考スコア(独自算出の注目度): 21.186109830294072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI assistance continues to help advance applications in education, from
language learning to intelligent tutoring systems, yet current methods for
providing students feedback are still quite limited. Most automatic feedback
systems either provide binary correctness feedback, which may not help a
student understand how to improve, or require hand-coding feedback templates,
which may not generalize to new domains. This can be particularly challenging
for physical control tasks, where the rich diversity in student behavior and
specialized domains make it challenging to leverage general-purpose assistive
tools for providing feedback. We design and build CORGI, a model trained to
generate language corrections for physical control tasks, such as learning to
ride a bike. CORGI takes in as input a pair of student and expert trajectories,
and then generates natural language corrections to help the student improve. We
collect and train CORGI over data from three diverse physical control tasks
(drawing, steering, and joint movement). Through both automatic and human
evaluations, we show that CORGI can (i) generate valid feedback for novel
student trajectories, (ii) outperform baselines on domains with novel control
dynamics, and (iii) improve student learning in an interactive drawing task.
- Abstract(参考訳): AIアシストは、言語学習からインテリジェントな家庭教師システムまで、教育の先進的応用に引き続き役立っているが、学生のフィードバックを提供するための現在の方法はまだ限られている。
ほとんどの自動フィードバックシステムはバイナリ補正フィードバックを提供しており、生徒が改善方法を理解するのに役立たないかもしれないし、新しいドメインに一般化しないハンドコーディングフィードバックテンプレートを必要とするかもしれない。
これは、学生の振る舞いや専門領域の多様性が豊富なため、フィードバックを提供するための汎用的な補助ツールを活用することが難しくなる、物理的な制御タスクにとって特に困難である。
我々はCORGIを設計、構築する。これは、自転車の乗り方を学ぶなど、物理的な制御タスクの言語修正を訓練したモデルである。
CORGIは、一対の学生と専門家の軌跡を入力として取り込んで、自然言語の修正を生成して、学生が改善するのに役立つ。
我々はCORGIを3つの多様な物理的制御タスク(描画、操舵、関節運動)のデータより収集し、訓練する。
自動評価と人的評価の両方を通じて、CORGIが可能であることを示す。
(i)新規の学生軌道に対して有効なフィードバックを生成する。
(ii)新しい制御ダイナミクスを持つドメインのベースラインを上回っていること。
(iii)インタラクティブな描画タスクで学生の学習を改善する。
関連論文リスト
- WIP: A Unit Testing Framework for Self-Guided Personalized Online Robotics Learning [3.613641107321095]
本稿では,授業ワークフローに統合しながら,単体テストのためのシステムを構築することに焦点を当てる。
フレームワークのパーソナライズされた学生中心のアプローチに合わせて、この方法は学生がプログラミング作業を簡単に修正し、デバッグできるようにする。
単体テストを含むコースワークフローは、学習環境を強化し、学生が自己指導型でロボットをプログラムする方法を学習できるように、よりインタラクティブにする。
論文 参考訳(メタデータ) (2024-05-18T00:56:46Z) - Improving the Validity of Automatically Generated Feedback via
Reinforcement Learning [50.067342343957876]
強化学習(RL)を用いた正当性と整合性の両方を最適化するフィードバック生成フレームワークを提案する。
具体的には、直接選好最適化(DPO)によるトレーニングのための拡張データセットにおいて、GPT-4のアノテーションを使用してフィードバックペアよりも好みを生成する。
論文 参考訳(メタデータ) (2024-03-02T20:25:50Z) - YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - Distilling and Retrieving Generalizable Knowledge for Robot Manipulation via Language Corrections [45.420679219101245]
オンライン補正(DROC)の蒸留と検索について紹介する。
DROCは大規模言語モデル(LLM)ベースのシステムで、任意の形式の言語フィードバックに対応できる。
DROCは、知識ベースにおけるオンライン修正のシーケンスから、関連情報を効果的に蒸留できることを実証する。
論文 参考訳(メタデータ) (2023-11-17T18:00:20Z) - Empowering Private Tutoring by Chaining Large Language Models [87.76985829144834]
本研究は,最先端の大規模言語モデル(LLM)を活用した,本格的な知的チューリングシステムの開発を探求する。
このシステムは、相互に接続された3つのコアプロセス(相互作用、反射、反応)に分けられる。
各プロセスは LLM ベースのツールと動的に更新されたメモリモジュールによって実装される。
論文 参考訳(メタデータ) (2023-09-15T02:42:03Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文 参考訳(メタデータ) (2022-03-19T03:22:57Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Learning Online from Corrective Feedback: A Meta-Algorithm for Robotics [24.863665993509997]
模倣学習(il)における鍵となる課題は、最適な状態行動のデモンストレーションは教師が提供するのが難しいことである。
状態行動のデモンストレーションの代替として、教師は好みや報酬などの修正的なフィードバックを提供することができる。
このアプローチは、さまざまなノイズフィードバックから素早く学習できることを示します。
論文 参考訳(メタデータ) (2021-04-02T12:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。