Fugu-MT 論文翻訳(概要): Play to Grade: Testing Coding Games as Classifying Markov Decision Process

論文の概要: Play to Grade: Testing Coding Games as Classifying Markov Decision Process

arxiv url: http://arxiv.org/abs/2110.14615v1
Date: Wed, 27 Oct 2021 17:37:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-28 14:19:23.668297
Title: Play to Grade: Testing Coding Games as Classifying Markov Decision Process
Title（参考訳）: play to grade: マルコフ決定プロセスを分類するコーディングゲームをテストする
Authors: Allen Nie, Emma Brunskill, Chris Piech
Abstract要約: マルコフ決定過程(MDP)の分類作業として対話型プログラムにフィードバックを提供することの課題を定式化する。本手法は,対話型コード代入のための自動フィードバックシステムを実現する。我々は,711,274名の匿名学生を対象に,手書きバグラベルを用いた単一課題のデータセットを公開し,今後の研究を支援する。
参考スコア（独自算出の注目度）: 45.147473767394104
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Contemporary coding education often presents students with the task of developing programs that have user interaction and complex dynamic systems, such as mouse based games. While pedagogically compelling, there are no contemporary autonomous methods for providing feedback. Notably, interactive programs are impossible to grade by traditional unit tests. In this paper we formalize the challenge of providing feedback to interactive programs as a task of classifying Markov Decision Processes (MDPs). Each student's program fully specifies an MDP where the agent needs to operate and decide, under reasonable generalization, if the dynamics and reward model of the input MDP should be categorized as correct or broken. We demonstrate that by designing a cooperative objective between an agent and an autoregressive model, we can use the agent to sample differential trajectories from the input MDP that allows a classifier to determine membership: Play to Grade. Our method enables an automatic feedback system for interactive code assignments. We release a dataset of 711,274 anonymized student submissions to a single assignment with hand-coded bug labels to support future research.
Abstract（参考訳）: 現代のコーディング教育は、しばしば学生にマウスベースのゲームのようなユーザーインタラクションと複雑な動的システムを持つプログラムを開発するタスクを提示する。教育的に説得力があるが、フィードバックを提供するための現代の自律的な方法は存在しない。特に、対話型プログラムは従来の単体テストでは評価できない。本稿では,マルコフ決定過程(MDP)の分類作業として,対話型プログラムにフィードバックを提供することの課題を定式化する。各生徒のプログラムは、エージェントが操作し、合理的な一般化の下で、入力されたMDPの力学と報酬モデルが正しいか壊れているかを判断するMDPを完全に指定する。エージェントと自己回帰モデルとの協調目標を設計することにより、エージェントを用いて入力されたmdpから微分軌道をサンプリングし、分類器がメンバシップを決定することができることを実証する。対話型コード代入のための自動フィードバックシステムを実現する。我々は,711,274名の匿名学生によるデータセットを手書きバグラベルを用いた単一課題に適用し,今後の研究を支援する。

関連論文リスト

From Static Benchmarks to Dynamic Protocol: Agent-Centric Text Anomaly Detection for Evaluating LLM Reasoning [12.024430772980502]
本稿では,大規模言語モデル評価のためのエージェント中心ベンチマークパラダイムを提案する。教師エージェントは、候補問題を生成し、オーケストレータエージェントは、その妥当性を厳格に検証し、敵攻撃に対するガードを行う。生徒がその問題を正しく解いた場合、オーケストレータは教師にもっと難しい変奏曲を生成するよう促す。
論文参考訳（メタデータ） (2026-02-27T06:54:32Z)
GrandJury: A Collaborative Machine Learning Model Evaluation Protocol for Dynamic Quality Rubrics [0.0]
生成機械学習モデルは現代のシステムの中心となり、クリエイティブな文章、要約、マルチホップ推論、コンテキスト認識対話などの応用に力を入れている。標準的な評価体制は依然として静的なベンチマークスタイルのテストに依存しており、動的なユーザニーズや現実の進化ではなく、リーダボードスコアへの最適化を動機付けている。 GrandJuryは、動的で透明なタスク属性と人間の判断をサポートすることで、タイムデケイドアグリゲーション、完全なトレーサビリティを組み合わせた正式な評価プロトコルを導入している。
論文参考訳（メタデータ） (2025-08-04T22:00:44Z)
SimStep: Chain-of-Abstractions for Incremental Specification and Debugging of AI-Generated Interactive Simulations [16.00479720281197]
CoA(Chain-of-Abstractions)は、プログラミングの中核的な能力を取り戻す方法である。 CoAは、合成プロセスを認知的に意味のある、タスクに沿った一連の表現に分解する。 SimStepは4つの中間抽象化を通じてシミュレーションを作成する教師のためのオーサリング環境である。
論文参考訳（メタデータ） (2025-07-13T14:54:17Z)
Prompt Programming: A Platform for Dialogue-based Computational Problem Solving with Generative AI Models [22.339868419855904]
学生は、しばしば正式な指導や指導なしに、プログラミング支援のために生成AIツールをますます頼りにしている。このことは、学生にAIモデルと効果的に対話する方法を教える必要性を強調している。我々は,対話に基づく対話を可能にするプロンプトプログラミングのための新しいプラットフォームを開発した。
論文参考訳（メタデータ） (2025-03-06T09:56:07Z)
Program Synthesis Dialog Agents for Interactive Decision-Making [15.76727860626721]
本研究では,インタラクティブな意思決定を通じて,社会的利益の機会に対するユーザの適性を決定するための新しいベンチマークであるBeNYfitsを提案する。実験の結果, GPT-4o は ReAct-style chain-of- Thought を用いて35.7 F1 しか得点できなかった。我々のエージェントであるProADAは、ほぼ同じ数のダイアログターンを維持しながら、F1スコアを55.6に改善します。
論文参考訳（メタデータ） (2025-02-26T22:53:01Z)
QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文参考訳（メタデータ） (2025-02-04T18:58:31Z)
MarkovType: A Markov Decision Process Strategy for Non-Invasive Brain-Computer Interfaces Typing Systems [11.725845532549558]
非侵襲脳波(EEG)を用いた脳-コンピュータインタフェース(BCI)のRapid Serial Visual Presentation(RSVP)パラダイムに焦点を当てる。分類速度を制御しながらシンボルの分類性能を向上させるために,部分観測可能なマルコフ決定プロセス(POMDP)を提案することにより,タイピング設定をトレーニングに組み込む。実験の結果,提案手法であるMarkovTypeは,競合に比べて精度の高いタイピングシステムであることがわかった。
論文参考訳（メタデータ） (2024-12-20T12:59:41Z)
Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文参考訳（メタデータ） (2024-12-02T08:16:38Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
WIP: A Unit Testing Framework for Self-Guided Personalized Online Robotics Learning [3.613641107321095]
本稿では,授業ワークフローに統合しながら,単体テストのためのシステムを構築することに焦点を当てる。フレームワークのパーソナライズされた学生中心のアプローチに合わせて、この方法は学生がプログラミング作業を簡単に修正し、デバッグできるようにする。単体テストを含むコースワークフローは、学習環境を強化し、学生が自己指導型でロボットをプログラムする方法を学習できるように、よりインタラクティブにする。
論文参考訳（メタデータ） (2024-05-18T00:56:46Z)
Prompt Customization for Continual Learning [57.017987355717935]
本稿では,継続的学習のためのプロンプト的アプローチを再構築し,プロンプト的カスタマイズ(PC)手法を提案する。 PCは主にプロンプト生成モジュール(PGM)とプロンプト変調モジュール(PMM)で構成される。提案手法は,クラス,ドメイン,タスクに依存しないインクリメンタル学習タスクを含む3つの異なる設定に対して,4つのベンチマークデータセットを用いて評価する。
論文参考訳（メタデータ） (2024-04-28T03:28:27Z)
Learning Label Modular Prompts for Text Classification in the Wild [56.66187728534808]
そこで本研究では,非定常学習/テスト段階の異なるテキスト分類手法を提案する。複雑なタスクをモジュラー成分に分解することで、そのような非定常環境下での堅牢な一般化が可能になる。テキスト分類タスクのためのラベルモジュール型プロンプトチューニングフレームワークMODcularPROMPTを提案する。
論文参考訳（メタデータ） (2022-11-30T16:26:38Z)
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文参考訳（メタデータ） (2021-07-23T22:41:28Z)
Q-learning with Language Model for Edit-based Unsupervised Summarization [19.332743860240264]
編集に基づく要約を用いたQ-ラーニングに基づく新しい手法を提案する。このメソッドは2つのキーモジュールを組み合わせてエディターエージェントと言語モデルコンバータを形成する。 Q-learningは、適切な編集アクションを生成するためにエージェントを訓練するために利用される。
論文参考訳（メタデータ） (2020-10-09T05:47:00Z)
A Markov Decision Process Approach to Active Meta Learning [24.50189361694407]
教師付き学習では、データが特定のタスクに関連付けられていると仮定して、与えられたデータセットに1つの統計モデルを適用する。メタラーニングでは、データは多数のタスクと関連付けられており、同時に全てのタスクでうまく機能するモデルを模索する。
論文参考訳（メタデータ） (2020-09-10T15:45:34Z)
CycAs: Self-supervised Cycle Association for Learning Re-identifiable Descriptions [61.724894233252414]
本稿では,人物再識別(re-ID)問題に対する自己教師型学習手法を提案する。既存の教師なしのメソッドは通常、ビデオトラッカーやクラスタリングのような擬似ラベルに依存している。疑似ラベルを使わずに、生のビデオから歩行者の埋め込みを学習できる別の教師なし手法を導入する。
論文参考訳（メタデータ） (2020-07-15T09:52:35Z)
Learning and Solving Regular Decision Processes [15.533842336139067]
RDP(Regular Decision Processs)は、非マルコフ力学と報酬を用いてMDPを拡張するモデルである。本研究では,履歴クラスタリングによる自動学習技術を活用して,MCTSを適応させることで,Mealyマシンを学習し,それを解決する。
論文参考訳（メタデータ） (2020-03-02T16:36:16Z)
Learning Non-Markovian Reward Models in MDPs [0.0]
メアリーマシンを用いて非マルコフ報酬関数を定式化する方法を示す。正式な設定では、エージェントが進化する環境の力学をモデル化するマルコフ決定過程(MDP)を考える。 MDPはエージェントによって知られているが、報酬関数はエージェントから未知であり、学習されなければならない。
論文参考訳（メタデータ） (2020-01-25T10:51:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。