論文の概要: Hearts Gym: Learning Reinforcement Learning as a Team Event
- arxiv url: http://arxiv.org/abs/2209.05466v1
- Date: Wed, 7 Sep 2022 08:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 17:32:43.854771
- Title: Hearts Gym: Learning Reinforcement Learning as a Team Event
- Title(参考訳): hearts gym: 強化学習をチームイベントとして学ぶ
- Authors: Jan Ebert, Danimir T. Doncevic, Ramona Klo{\ss}, Stefan Kesselheim
- Abstract要約: 本稿では,ユビキタスZoom疲労にもかかわらず,エキサイティングな学習体験を実現するための戦略と材料について述べる。
コースの実践的な部分は、カードゲームHeartsのRL環境であるHearts Gymを中心に展開され、RLの入門レベルのチュートリアルとして開発しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Amidst the COVID-19 pandemic, the authors of this paper organized a
Reinforcement Learning (RL) course for a graduate school in the field of data
science. We describe the strategy and materials for creating an exciting
learning experience despite the ubiquitous Zoom fatigue and evaluate the course
qualitatively. The key organizational features are a focus on a competitive
hands-on setting in teams, supported by a minimum of lectures providing the
essential background on RL. The practical part of the course revolved around
Hearts Gym, an RL environment for the card game Hearts that we developed as an
entry-level tutorial to RL. Participants were tasked with training agents to
explore reward shaping and other RL hyperparameters. For a final evaluation,
the agents of the participants competed against each other.
- Abstract(参考訳): 新型コロナウイルス(covid-19)パンデミックの最中,著者らはデータサイエンスの大学院で強化学習(rl)コースを開設した。
ユビキタスなズームの疲労にもかかわらず,エキサイティングな学習体験を生み出すための戦略と教材について述べ,コースを定性的に評価する。
重要な組織的特徴は、チームにおける競争力のあるハンズオンの設定に集中することであり、RLの本質的な背景を提供する最小限の講義によってサポートされます。
コースの実践的な部分は、カードゲームHeartsのRL環境であるHearts Gymを中心に展開され、RLの入門レベルのチュートリアルとして開発しました。
参加者は報酬形成やその他のRLハイパーパラメータを探索する訓練エージェントを任された。
最終評価では、参加者のエージェントが互いに競い合った。
関連論文リスト
- A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。
本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。
TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文 参考訳(メタデータ) (2024-07-12T16:44:03Z) - Knowledge Graph Reasoning with Self-supervised Reinforcement Learning [30.359557545737747]
本稿では,RLトレーニング前の政策ネットワークを温めるための自己指導型事前学習手法を提案する。
教師付き学習段階において、エージェントはポリシーネットワークに基づいて行動を選択し、生成されたラベルから学習する。
我々のSSRLモデルは、すべてのHits@kおよび平均相互ランク(MRR)メトリクスにおいて、現在の最先端結果と一致または超えていることを示す。
論文 参考訳(メタデータ) (2024-05-22T13:39:33Z) - DIP-RL: Demonstration-Inferred Preference Learning in Minecraft [0.5669790037378094]
機械学習では、アルゴリズムエージェントが報酬信号の形式でフィードバックを受けながら環境と対話することを学ぶ。
本稿では,人間の実演を3つの異なる方法で活用するアルゴリズムであるDIP-RLを提案する。
Minecraftにおける木切り作業におけるDIP-RLの評価を行った。
論文 参考訳(メタデータ) (2023-07-22T20:05:31Z) - Retrospective on the 2021 BASALT Competition on Learning from Human
Feedback [92.37243979045817]
競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。
LfHF技術の使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクについて説明した。
チームは、様々な可能な人間のフィードバックタイプにまたがる多様なLfHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-04-14T17:24:54Z) - Motivating Learners in Multi-Orchestrator Mobile Edge Learning: A
Stackelberg Game Approach [54.28419430315478]
Mobile Edge Learningは、異種エッジデバイス上で機械学習モデルの分散トレーニングを可能にする。
MELでは、十分なトレーニングデータやコンピューティングリソースを入手することなく、トレーニング性能が低下する。
そこで我々は2ラウンドのStackelbergゲームとしてオーケストレータとラーナーの相互作用を定式化するインセンティブ機構を提案する。
論文 参考訳(メタデータ) (2021-09-25T17:27:48Z) - Improving Reinforcement Learning with Human Assistance: An Argument for
Human Subject Studies with HIPPO Gym [21.4215863934377]
強化学習(Reinforcement Learning、RL)は、ゲームプレイ、ロボティクス制御、その他のシーケンシャルな意思決定タスクのための一般的な機械学習パラダイムである。
本稿では,オープンソースRLフレームワークであるHuman Input Parsing Platform for Openai Gym(HIPPO Gym)を紹介します。
論文 参考訳(メタデータ) (2021-02-02T12:56:02Z) - A novel policy for pre-trained Deep Reinforcement Learning for Speech
Emotion Recognition [8.175197257598697]
Reinforcement Learning(RL)は、エージェントが環境と相互作用することによって学習する半教師付き学習パラダイムです。
ディープRLはAlphaGoのようなゲームで大成功を収めてきたが、音声感情認識(SER)のような挑戦的なタスクのためにその可能性を探ることはめったにない。
本稿では、SERに適した新しいポリシー「ゼタポリシー」を導入し、より高速な学習率を達成するために深部RLでの事前学習を適用する。
論文 参考訳(メタデータ) (2021-01-04T02:13:26Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。