論文の概要: Play to Grade: Testing Coding Games as Classifying Markov Decision
Process
- arxiv url: http://arxiv.org/abs/2110.14615v1
- Date: Wed, 27 Oct 2021 17:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 14:19:23.668297
- Title: Play to Grade: Testing Coding Games as Classifying Markov Decision
Process
- Title(参考訳): play to grade: マルコフ決定プロセスを分類するコーディングゲームをテストする
- Authors: Allen Nie, Emma Brunskill, Chris Piech
- Abstract要約: マルコフ決定過程(MDP)の分類作業として対話型プログラムにフィードバックを提供することの課題を定式化する。
本手法は,対話型コード代入のための自動フィードバックシステムを実現する。
我々は,711,274名の匿名学生を対象に,手書きバグラベルを用いた単一課題のデータセットを公開し,今後の研究を支援する。
- 参考スコア(独自算出の注目度): 45.147473767394104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary coding education often presents students with the task of
developing programs that have user interaction and complex dynamic systems,
such as mouse based games. While pedagogically compelling, there are no
contemporary autonomous methods for providing feedback. Notably, interactive
programs are impossible to grade by traditional unit tests. In this paper we
formalize the challenge of providing feedback to interactive programs as a task
of classifying Markov Decision Processes (MDPs). Each student's program fully
specifies an MDP where the agent needs to operate and decide, under reasonable
generalization, if the dynamics and reward model of the input MDP should be
categorized as correct or broken. We demonstrate that by designing a
cooperative objective between an agent and an autoregressive model, we can use
the agent to sample differential trajectories from the input MDP that allows a
classifier to determine membership: Play to Grade. Our method enables an
automatic feedback system for interactive code assignments. We release a
dataset of 711,274 anonymized student submissions to a single assignment with
hand-coded bug labels to support future research.
- Abstract(参考訳): 現代のコーディング教育は、しばしば学生にマウスベースのゲームのようなユーザーインタラクションと複雑な動的システムを持つプログラムを開発するタスクを提示する。
教育的に説得力があるが、フィードバックを提供するための現代の自律的な方法は存在しない。
特に、対話型プログラムは従来の単体テストでは評価できない。
本稿では,マルコフ決定過程(MDP)の分類作業として,対話型プログラムにフィードバックを提供することの課題を定式化する。
各生徒のプログラムは、エージェントが操作し、合理的な一般化の下で、入力されたMDPの力学と報酬モデルが正しいか壊れているかを判断するMDPを完全に指定する。
エージェントと自己回帰モデルとの協調目標を設計することにより、エージェントを用いて入力されたmdpから微分軌道をサンプリングし、分類器がメンバシップを決定することができることを実証する。
対話型コード代入のための自動フィードバックシステムを実現する。
我々は,711,274名の匿名学生によるデータセットを手書きバグラベルを用いた単一課題に適用し,今後の研究を支援する。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - WIP: A Unit Testing Framework for Self-Guided Personalized Online Robotics Learning [3.613641107321095]
本稿では,授業ワークフローに統合しながら,単体テストのためのシステムを構築することに焦点を当てる。
フレームワークのパーソナライズされた学生中心のアプローチに合わせて、この方法は学生がプログラミング作業を簡単に修正し、デバッグできるようにする。
単体テストを含むコースワークフローは、学習環境を強化し、学生が自己指導型でロボットをプログラムする方法を学習できるように、よりインタラクティブにする。
論文 参考訳(メタデータ) (2024-05-18T00:56:46Z) - Prompt Customization for Continual Learning [57.017987355717935]
本稿では,継続的学習のためのプロンプト的アプローチを再構築し,プロンプト的カスタマイズ(PC)手法を提案する。
PCは主にプロンプト生成モジュール(PGM)とプロンプト変調モジュール(PMM)で構成される。
提案手法は,クラス,ドメイン,タスクに依存しないインクリメンタル学習タスクを含む3つの異なる設定に対して,4つのベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2024-04-28T03:28:27Z) - Learning Label Modular Prompts for Text Classification in the Wild [56.66187728534808]
そこで本研究では,非定常学習/テスト段階の異なるテキスト分類手法を提案する。
複雑なタスクをモジュラー成分に分解することで、そのような非定常環境下での堅牢な一般化が可能になる。
テキスト分類タスクのためのラベルモジュール型プロンプトチューニングフレームワークMODcularPROMPTを提案する。
論文 参考訳(メタデータ) (2022-11-30T16:26:38Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Q-learning with Language Model for Edit-based Unsupervised Summarization [19.332743860240264]
編集に基づく要約を用いたQ-ラーニングに基づく新しい手法を提案する。
このメソッドは2つのキーモジュールを組み合わせてエディターエージェントと言語モデルコンバータを形成する。
Q-learningは、適切な編集アクションを生成するためにエージェントを訓練するために利用される。
論文 参考訳(メタデータ) (2020-10-09T05:47:00Z) - A Markov Decision Process Approach to Active Meta Learning [24.50189361694407]
教師付き学習では、データが特定のタスクに関連付けられていると仮定して、与えられたデータセットに1つの統計モデルを適用する。
メタラーニングでは、データは多数のタスクと関連付けられており、同時に全てのタスクでうまく機能するモデルを模索する。
論文 参考訳(メタデータ) (2020-09-10T15:45:34Z) - CycAs: Self-supervised Cycle Association for Learning Re-identifiable
Descriptions [61.724894233252414]
本稿では,人物再識別(re-ID)問題に対する自己教師型学習手法を提案する。
既存の教師なしのメソッドは通常、ビデオトラッカーやクラスタリングのような擬似ラベルに依存している。
疑似ラベルを使わずに、生のビデオから歩行者の埋め込みを学習できる別の教師なし手法を導入する。
論文 参考訳(メタデータ) (2020-07-15T09:52:35Z) - Learning and Solving Regular Decision Processes [15.533842336139067]
RDP(Regular Decision Processs)は、非マルコフ力学と報酬を用いてMDPを拡張するモデルである。
本研究では,履歴クラスタリングによる自動学習技術を活用して,MCTSを適応させることで,Mealyマシンを学習し,それを解決する。
論文 参考訳(メタデータ) (2020-03-02T16:36:16Z) - Learning Non-Markovian Reward Models in MDPs [0.0]
メアリーマシンを用いて非マルコフ報酬関数を定式化する方法を示す。
正式な設定では、エージェントが進化する環境の力学をモデル化するマルコフ決定過程(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントから未知であり、学習されなければならない。
論文 参考訳(メタデータ) (2020-01-25T10:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。