論文の概要: Training Reinforcement Learning Agents and Humans With
Difficulty-Conditioned Generators
- arxiv url: http://arxiv.org/abs/2312.02309v1
- Date: Mon, 4 Dec 2023 19:45:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 17:35:14.113511
- Title: Training Reinforcement Learning Agents and Humans With
Difficulty-Conditioned Generators
- Title(参考訳): コンディショナブル・ジェネレータを用いた強化学習エージェントと人間
- Authors: Sidney Tio, Jimmy Ho, Pradeep Varakantham
- Abstract要約: 我々は,難易度と能力を直接モデル化することにより,パラメータ化環境における強化学習エージェントと人間学習者を適応させる。
PERMは、項目応答理論(IRT)にヒントを得て、環境の難易度を個々の能力と整合させ、近接開発ベースのカリキュラムのゾーンを作成する。
本稿では,PERMの適応性を活かした2段階のトレーニングプロセスを提案する。
- 参考スコア(独自算出の注目度): 6.98887755747127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We adapt Parameterized Environment Response Model (PERM), a method for
training both Reinforcement Learning (RL) Agents and human learners in
parameterized environments by directly modeling difficulty and ability.
Inspired by Item Response Theory (IRT), PERM aligns environment difficulty with
individual ability, creating a Zone of Proximal Development-based curriculum.
Remarkably, PERM operates without real-time RL updates and allows for offline
training, ensuring its adaptability across diverse students. We present a
two-stage training process that capitalizes on PERM's adaptability, and
demonstrate its effectiveness in training RL agents and humans in an empirical
study.
- Abstract(参考訳): パラメータ化環境対応モデル (PERM) は, 難易度と能力を直接モデル化することにより, パラメータ化環境における強化学習エージェントと人間の学習者を訓練する手法である。
項目応答理論(irt)に着想を得て、permは環境の難易度を個々の能力と整合させ、近位開発に基づくカリキュラムのゾーンを作成する。
特筆すべきは、PERMはリアルタイムRL更新なしで動作し、オフライントレーニングを可能にし、多様な学生間で適応性を確保することだ。
実験では,permの適応性を活かした2段階のトレーニングプロセスを提案し,rlエージェントとヒトの訓練におけるその効果を実証する。
関連論文リスト
- Ego-Foresight: Agent Visuomotor Prediction as Regularization for RL [34.6883445484835]
エゴフォレスト(Ego-Foresight)は、エージェントと環境を移動と予測に基づいて切り離す自己管理手法である。
本稿では,エージェントのビジュモータ予測がRLアルゴリズムの正規化に役立ち,動作が予測可能な範囲内に留まるよう促すことを示す。
Ego-ForesightとモデルフリーなRLアルゴリズムを統合し、ロボット操作のシミュレーションを解くことで、効率が23%向上し、性能が8%向上した。
論文 参考訳(メタデータ) (2024-05-27T13:32:43Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - ADAPTER-RL: Adaptation of Any Agent using Reinforcement Learning [0.0]
アダプタは自然言語処理やコンピュータビジョンなどの教師あり学習コンテキストにおいて有効であることが証明されている。
本稿では,学習効率の向上とベースエージェントの改良を実証する,革新的な適応戦略を提案する。
提案するユニバーサルアプローチは、事前訓練されたニューラルネットワークだけでなく、ルールベースのエージェントとも互換性があり、人間の専門知識を統合する手段を提供する。
論文 参考訳(メタデータ) (2023-11-20T04:54:51Z) - Grow Your Limits: Continuous Improvement with Real-World RL for Robotic
Locomotion [66.69666636971922]
本稿では,ロボットの学習過程における探索を調節するポリシー正規化フレームワークであるAPRLを提案する。
APRLは四足歩行ロボットを、数分で完全に現実世界を歩けるように効率よく学習する。
論文 参考訳(メタデータ) (2023-10-26T17:51:46Z) - Improving Generalization in Reinforcement Learning Training Regimes for
Social Robot Navigation [5.475804640008192]
カリキュラム学習を用いたRLソーシャルナビゲーション手法の一般化性能を向上させる手法を提案する。
本研究は,カリキュラム学習を学習に活用することで,従来の学習方法よりも優れた一般化性能が得られることを示す。
論文 参考訳(メタデータ) (2023-08-29T00:00:18Z) - Transferable Curricula through Difficulty Conditioned Generators [8.140037969280716]
強化学習(RL)は、Starcraft、Go、Chessなどの複雑なタスクにおいて、超人的なパフォーマンスを示す。
近年のカリキュラム生成手法はRLエージェントを効率的に訓練することに重点を置いている。
私たちは名前のついた方法を紹介します。
パラメータ化環境におけるRLエージェントのトレーニングにおいて有望な結果を示す環境応答モデル(PERM)。
論文 参考訳(メタデータ) (2023-06-22T16:45:45Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Cloud-Edge Training Architecture for Sim-to-Real Deep Reinforcement
Learning [0.8399688944263843]
深層強化学習(DRL)は、環境との相互作用を通じてポリシーを学習することで複雑な制御課題を解決するための有望な手法である。
Sim-to-realアプローチはシミュレーションを利用してDRLポリシーを事前訓練し、現実世界にデプロイする。
本研究では,リアルタイムにDRLエージェントをトレーニングするための分散クラウドエッジアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-04T10:27:01Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-14T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。