論文の概要: Play to Grade: Testing Coding Games as Classifying Markov Decision
Process
- arxiv url: http://arxiv.org/abs/2110.14615v1
- Date: Wed, 27 Oct 2021 17:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 14:19:23.668297
- Title: Play to Grade: Testing Coding Games as Classifying Markov Decision
Process
- Title(参考訳): play to grade: マルコフ決定プロセスを分類するコーディングゲームをテストする
- Authors: Allen Nie, Emma Brunskill, Chris Piech
- Abstract要約: マルコフ決定過程(MDP)の分類作業として対話型プログラムにフィードバックを提供することの課題を定式化する。
本手法は,対話型コード代入のための自動フィードバックシステムを実現する。
我々は,711,274名の匿名学生を対象に,手書きバグラベルを用いた単一課題のデータセットを公開し,今後の研究を支援する。
- 参考スコア(独自算出の注目度): 45.147473767394104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary coding education often presents students with the task of
developing programs that have user interaction and complex dynamic systems,
such as mouse based games. While pedagogically compelling, there are no
contemporary autonomous methods for providing feedback. Notably, interactive
programs are impossible to grade by traditional unit tests. In this paper we
formalize the challenge of providing feedback to interactive programs as a task
of classifying Markov Decision Processes (MDPs). Each student's program fully
specifies an MDP where the agent needs to operate and decide, under reasonable
generalization, if the dynamics and reward model of the input MDP should be
categorized as correct or broken. We demonstrate that by designing a
cooperative objective between an agent and an autoregressive model, we can use
the agent to sample differential trajectories from the input MDP that allows a
classifier to determine membership: Play to Grade. Our method enables an
automatic feedback system for interactive code assignments. We release a
dataset of 711,274 anonymized student submissions to a single assignment with
hand-coded bug labels to support future research.
- Abstract(参考訳): 現代のコーディング教育は、しばしば学生にマウスベースのゲームのようなユーザーインタラクションと複雑な動的システムを持つプログラムを開発するタスクを提示する。
教育的に説得力があるが、フィードバックを提供するための現代の自律的な方法は存在しない。
特に、対話型プログラムは従来の単体テストでは評価できない。
本稿では,マルコフ決定過程(MDP)の分類作業として,対話型プログラムにフィードバックを提供することの課題を定式化する。
各生徒のプログラムは、エージェントが操作し、合理的な一般化の下で、入力されたMDPの力学と報酬モデルが正しいか壊れているかを判断するMDPを完全に指定する。
エージェントと自己回帰モデルとの協調目標を設計することにより、エージェントを用いて入力されたmdpから微分軌道をサンプリングし、分類器がメンバシップを決定することができることを実証する。
対話型コード代入のための自動フィードバックシステムを実現する。
我々は,711,274名の匿名学生によるデータセットを手書きバグラベルを用いた単一課題に適用し,今後の研究を支援する。
関連論文リスト
- QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。
ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。
我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文 参考訳(メタデータ) (2025-02-04T18:58:31Z) - MarkovType: A Markov Decision Process Strategy for Non-Invasive Brain-Computer Interfaces Typing Systems [11.725845532549558]
非侵襲脳波(EEG)を用いた脳-コンピュータインタフェース(BCI)のRapid Serial Visual Presentation(RSVP)パラダイムに焦点を当てる。
分類速度を制御しながらシンボルの分類性能を向上させるために,部分観測可能なマルコフ決定プロセス(POMDP)を提案することにより,タイピング設定をトレーニングに組み込む。
実験の結果,提案手法であるMarkovTypeは,競合に比べて精度の高いタイピングシステムであることがわかった。
論文 参考訳(メタデータ) (2024-12-20T12:59:41Z) - Collaborative Instance Navigation: Leveraging Agent Self-Dialogue to Minimize User Input [54.81155589931697]
我々は,ナビゲーション中の動的エージェントと人間との相互作用を考慮したCoIN(Collaborative Instance Navigation)を提案する。
CoINに対処するために,新しいエージェント・ユーザ・インタラクションとUncerTainty Awareness (AIUTA)を提案する。
AIUTAは、最先端のメソッドに対するナビゲーションにおける競合的なパフォーマンスを実現し、ユーザの入力を処理する際の柔軟性を示している。
論文 参考訳(メタデータ) (2024-12-02T08:16:38Z) - WIP: A Unit Testing Framework for Self-Guided Personalized Online Robotics Learning [3.613641107321095]
本稿では,授業ワークフローに統合しながら,単体テストのためのシステムを構築することに焦点を当てる。
フレームワークのパーソナライズされた学生中心のアプローチに合わせて、この方法は学生がプログラミング作業を簡単に修正し、デバッグできるようにする。
単体テストを含むコースワークフローは、学習環境を強化し、学生が自己指導型でロボットをプログラムする方法を学習できるように、よりインタラクティブにする。
論文 参考訳(メタデータ) (2024-05-18T00:56:46Z) - Prompt Customization for Continual Learning [57.017987355717935]
本稿では,継続的学習のためのプロンプト的アプローチを再構築し,プロンプト的カスタマイズ(PC)手法を提案する。
PCは主にプロンプト生成モジュール(PGM)とプロンプト変調モジュール(PMM)で構成される。
提案手法は,クラス,ドメイン,タスクに依存しないインクリメンタル学習タスクを含む3つの異なる設定に対して,4つのベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2024-04-28T03:28:27Z) - Learning Label Modular Prompts for Text Classification in the Wild [56.66187728534808]
そこで本研究では,非定常学習/テスト段階の異なるテキスト分類手法を提案する。
複雑なタスクをモジュラー成分に分解することで、そのような非定常環境下での堅牢な一般化が可能になる。
テキスト分類タスクのためのラベルモジュール型プロンプトチューニングフレームワークMODcularPROMPTを提案する。
論文 参考訳(メタデータ) (2022-11-30T16:26:38Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Q-learning with Language Model for Edit-based Unsupervised Summarization [19.332743860240264]
編集に基づく要約を用いたQ-ラーニングに基づく新しい手法を提案する。
このメソッドは2つのキーモジュールを組み合わせてエディターエージェントと言語モデルコンバータを形成する。
Q-learningは、適切な編集アクションを生成するためにエージェントを訓練するために利用される。
論文 参考訳(メタデータ) (2020-10-09T05:47:00Z) - A Markov Decision Process Approach to Active Meta Learning [24.50189361694407]
教師付き学習では、データが特定のタスクに関連付けられていると仮定して、与えられたデータセットに1つの統計モデルを適用する。
メタラーニングでは、データは多数のタスクと関連付けられており、同時に全てのタスクでうまく機能するモデルを模索する。
論文 参考訳(メタデータ) (2020-09-10T15:45:34Z) - Learning Non-Markovian Reward Models in MDPs [0.0]
メアリーマシンを用いて非マルコフ報酬関数を定式化する方法を示す。
正式な設定では、エージェントが進化する環境の力学をモデル化するマルコフ決定過程(MDP)を考える。
MDPはエージェントによって知られているが、報酬関数はエージェントから未知であり、学習されなければならない。
論文 参考訳(メタデータ) (2020-01-25T10:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。