Fugu-MT 論文翻訳(概要): EduGym: An Environment Suite for Reinforcement Learning Education

論文の概要: EduGym: An Environment Suite for Reinforcement Learning Education

arxiv url: http://arxiv.org/abs/2311.10590v1
Date: Fri, 17 Nov 2023 15:45:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-20 14:19:37.504787
Title: EduGym: An Environment Suite for Reinforcement Learning Education
Title（参考訳）: EduGym:強化学習教育のための環境スイート
Authors: Thomas M. Moerland, Matthias M\"uller-Brockhausen, Zhao Yang, Andrius Bernatavicius, Koen Ponse, Tom Kouwenhoven, Andreas Sauter, Michiel van der Meer, Bram Renting, Aske Plaat
Abstract要約: EduGymは教育支援学習環境の集合体であり,教育に適した対話型ノートブックである。それぞれのEduGym環境は、強化学習の特定の側面/側面を示すように設計されている。 RL学生と研究者の86%が、EduGymは強化学習教育に有用なツールだと考えている。
参考スコア（独自算出の注目度）: 1.5299029730280802
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Due to the empirical success of reinforcement learning, an increasing number of students study the subject. However, from our practical teaching experience, we see students entering the field (bachelor, master and early PhD) often struggle. On the one hand, textbooks and (online) lectures provide the fundamentals, but students find it hard to translate between equations and code. On the other hand, public codebases do provide practical examples, but the implemented algorithms tend to be complex, and the underlying test environments contain multiple reinforcement learning challenges at once. Although this is realistic from a research perspective, it often hinders educational conceptual understanding. To solve this issue we introduce EduGym, a set of educational reinforcement learning environments and associated interactive notebooks tailored for education. Each EduGym environment is specifically designed to illustrate a certain aspect/challenge of reinforcement learning (e.g., exploration, partial observability, stochasticity, etc.), while the associated interactive notebook explains the challenge and its possible solution approaches, connecting equations and code in a single document. An evaluation among RL students and researchers shows 86% of them think EduGym is a useful tool for reinforcement learning education. All notebooks are available from https://sites.google.com/view/edu-gym/home, while the full software package can be installed from https://github.com/RLG-Leiden/edugym.
Abstract（参考訳）: 強化学習の実証的な成功により、学生の数が増加している。しかし、実践的な教育経験から、現場に入る学生(学士、修士、初期博士号)がしばしば苦労するのを見る。一方、教科書や(オンラインの)講義は基礎を提供するが、学生は方程式とコードの翻訳が難しいと感じる。一方、公開コードベースは実例を提供しているが、実装されたアルゴリズムは複雑になりがちであり、基礎となるテスト環境には複数の強化学習課題が同時に含まれている。これは研究の観点からは現実的であるが、しばしば教育的な概念的理解を妨げる。この問題を解決するために、教育強化学習環境と関連する対話型ノートブックのセットであるEduGymを紹介する。各edugym環境は、強化学習(例えば、探索、部分的可観測性、確率性など)の特定の側面や課題を説明するために特別に設計されている。 RL学生と研究者の86%が、EduGymは強化学習教育に有用なツールだと考えている。すべてのノートブックはhttps://sites.google.com/view/edu-gym/homeから入手できるが、完全なソフトウェアパッケージはhttps://github.com/RLG-Leiden/edugymからインストールできる。

関連論文リスト

UCO: A Multi-Turn Interactive Reinforcement Learning Method for Adaptive Teaching with Large Language Models [59.693733170193944]
大規模言語モデル(LLM)は、教育環境において、回答提供者からインテリジェントな家庭教師へとシフトしている。最近の強化学習アプローチはこの制限に対処するが、2つの重要な課題に直面している。これらの課題に対処するために一方向認知最適化法(UCO)を提案する。
論文参考訳（メタデータ） (2025-11-12T01:27:02Z)
Modeling Student Learning with 3.8 Million Program Traces [52.153493498021895]
Pencil Codeのユーザによる380万を越えるプログラミング推論のデータセットを紹介します。実際のトレースに基づいてトレーニングされたモデルは、多様な学生の振る舞いをモデル化する上で、より強力であることがわかった。我々は、コード生成モデルを操り、より正しいコードをもたらす一連の編集を識別することで、学生がミスから回復するのを支援できることを示します。
論文参考訳（メタデータ） (2025-10-06T17:37:17Z)
Exploring Student-AI Interactions in Vibe Coding [6.086654284173657]
本研究の目的は,導入プログラミングおよび高度なソフトウェア工学授業の学生が,ソフトウェア作成時にビブコーディングプラットフォーム(Replit)とどのように相互作用するかを理解することである。参加者はReplitを使ってWebアプリケーションを構築しているときに考えるように求められた。どちらのグループでも、Replitと学生のインタラクションの大部分はプロトタイプのテストやデバッグであり、学生がコードにアクセスすることはめったにない。
論文参考訳（メタデータ） (2025-07-30T12:35:20Z)
Example-Based Learning in Software Engineering Education: A Systematic Mapping Study [0.43012765978447565]
事例ベースラーニング(EBL)は、ソフトウェア工学教育(SEE)の品質向上を約束している。本研究は,ESBをSEEに用いた経験的証拠を調査し,分類することを目的とする。
論文参考訳（メタデータ） (2025-03-23T14:14:25Z)
Interactive Sketchpad: A Multimodal Tutoring System for Collaborative, Visual Problem-Solving [25.22658210339668]
本稿では,対話型ビジュアライゼーションと対話型ビジュアライゼーションを組み合わせた学習システムであるInteractive Sketchpadを紹介する。幾何学、計算、および対話型スケッチパッドなどの数学問題に関するユーザ研究は、タスク理解、問題解決精度、エンゲージメントレベルの改善につながることを示した。
論文参考訳（メタデータ） (2025-02-12T00:59:25Z)
Learning Iterative Reasoning through Energy Diffusion [90.24765095498392]
我々は,エネルギー拡散による反復的推論(IRED)を紹介した。 IREDは入力条件と所望の出力の間の制約を表現するためにエネルギー関数を学ぶ。 IREDは、連続空間推論、離散空間推論、計画タスクにおいて既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-17T03:36:47Z)
Integrating A.I. in Higher Education: Protocol for a Pilot Study with 'SAMCares: An Adaptive Learning Hub' [0.6990493129893112]
本研究は,「SAMCares」と呼ぶ革新的な研究仲間を紹介することを目的としている。このシステムは、Large Language Model(LLM)とRetriever-Augmented Generation(RAG)を利用して、リアルタイム、コンテキスト認識、適応的な教育サポートを提供する。
論文参考訳（メタデータ） (2024-05-01T05:39:07Z)
YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文参考訳（メタデータ） (2024-01-28T14:32:15Z)
Exploring the Use of ChatGPT as a Tool for Learning and Assessment in Undergraduate Computer Science Curriculum: Opportunities and Challenges [0.3553493344868413]
本稿では,ChatGPTを大学コンピュータサイエンスカリキュラムの学習・評価ツールとして活用する上での課題と課題について論じる。グループBの学生はChatGPTにアクセスでき、プログラミングの課題を解決するために使うことを奨励された。結果より,ChatGPTを用いた学生は成績の点で有利であったが,提出されたコードには矛盾や不正確性があった。
論文参考訳（メタデータ） (2023-04-16T21:04:52Z)
Automated Graph Self-supervised Learning via Multi-teacher Knowledge Distillation [43.903582264697974]
本稿では,各ノードのインスタンスレベルの自己教師型学習戦略を自動的に,適応的に,動的に学習する方法について検討する。自動グラフ自己監視学習(AGSSL)のための新しい多教師知識蒸留フレームワークを提案する。 8つのデータセットの実験では、AGSSLは複数のプレテキストタスクの恩恵を受けることができ、対応する個々のタスクを上回っている。
論文参考訳（メタデータ） (2022-10-05T08:39:13Z)
Offline Handwritten Amharic Character Recognition Using Few-shot Learning [4.243592852049962]
少数ショット学習を用いたオフライン手書きアンハリック文字認識に対処する。行と列の類似性を持つアムハラ文字の性質を探求する機会を利用することで、トレーニングエピソードを増強する新たな方法が提案されている。
論文参考訳（メタデータ） (2022-10-01T13:16:18Z)
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文参考訳（メタデータ） (2021-07-23T22:41:28Z)
Dive into Deep Learning [119.30375933463156]
この本はJupyterのノートブックでドラフトされており、説明図、数学、インタラクティブな例を自己完結型コードとシームレスに統合している。私たちのゴールは、(i)誰でも自由に利用できるリソースを提供すること、(ii)応用機械学習科学者になるための出発点を提供するのに十分な技術的な深さを提供すること、(iii)実行可能なコードを含み、実際にどのように問題を解決するかを読者に示すこと、(iv)私たちとコミュニティの両方による迅速なアップデートを可能にすることです。
論文参考訳（メタデータ） (2021-06-21T18:19:46Z)
Heterogeneous Representation Learning: A Review [66.12816399765296]
不均一表現学習(HRL)には、いくつかの独特な課題がある。異種入力を用いて既存の学習環境をモデル化可能な統合学習フレームワークを提案する。 HRLでは触れられていない課題と今後の研究方向性を強調します。
論文参考訳（メタデータ） (2020-04-28T05:12:31Z)
Curriculum Learning for Reinforcement Learning Domains: A Framework and Survey [53.73359052511171]
強化学習(Reinforcement Learning, RL)は、エージェントが限られた環境フィードバックしか持たないシーケンシャルな意思決定タスクに対処するための一般的なパラダイムである。本稿では、RLにおけるカリキュラム学習(CL)の枠組みを提案し、既存のCLメソッドを仮定、能力、目標の観点から調査・分類する。
論文参考訳（メタデータ） (2020-03-10T20:41:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。