論文の概要: Efficient Mitigation of Bus Bunching through Setter-Based Curriculum Learning
- arxiv url: http://arxiv.org/abs/2405.15824v1
- Date: Thu, 23 May 2024 18:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 02:39:33.904220
- Title: Efficient Mitigation of Bus Bunching through Setter-Based Curriculum Learning
- Title(参考訳): セッタ型カリキュラム学習によるバスバンチの効率化
- Authors: Avidan Shah, Danny Tran, Yuhan Tang,
- Abstract要約: 本稿では,セッターモデルを用いて,行動空間,対向強み,集団強みを自動生成するカリキュラム学習手法を提案する。
自動カリキュラム学習の手法は、動的に選択され、敵対するネットワークによって学習されるカリキュラムを含む。
- 参考スコア(独自算出の注目度): 0.47518865271427785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Curriculum learning has been growing in the domain of reinforcement learning as a method of improving training efficiency for various tasks. It involves modifying the difficulty (lessons) of the environment as the agent learns, in order to encourage more optimal agent behavior and higher reward states. However, most curriculum learning methods currently involve discrete transitions of the curriculum or predefined steps by the programmer or using automatic curriculum learning on only a small subset training such as only on an adversary. In this paper, we propose a novel approach to curriculum learning that uses a Setter Model to automatically generate an action space, adversary strength, initialization, and bunching strength. Transportation and traffic optimization is a well known area of study, especially for reinforcement learning based solutions. We specifically look at the bus bunching problem for the context of this study. The main idea of the problem is to minimize the delays caused by inefficient bus timings for passengers arriving and departing from a system of buses. While the heavy exploration in the area makes innovation and improvement with regards to performance marginal, it simultaneously provides an effective baseline for developing new generalized techniques. Our group is particularly interested in examining curriculum learning and its effect on training efficiency and overall performance. We decide to try a lesser known approach to curriculum learning, in which the curriculum is not fixed or discretely thresholded. Our method for automated curriculum learning involves a curriculum that is dynamically chosen and learned by an adversary network made to increase the difficulty of the agent's training, and defined by multiple forms of input. Our results are shown in the following sections of this paper.
- Abstract(参考訳): 各種タスクの学習効率を向上させる手法として,強化学習分野においてカリキュラム学習が成長している。
エージェントがより最適なエージェントの振る舞いとより高い報酬状態を促進するために、エージェントが学習する環境の難しさ(無関係)を変更することを含む。
しかしながら、ほとんどのカリキュラム学習方法は、現在、プログラマによるカリキュラムや事前定義されたステップの離散的な遷移、あるいは、敵対者のみに限って小さなサブセットのトレーニングで自動カリキュラム学習を使用する。
本稿では,セッターモデルを用いて,行動空間,対向力,初期化,および束縛力を自動的に生成するカリキュラム学習手法を提案する。
交通と交通の最適化は、特に強化学習に基づくソリューションについて、よく知られた研究分野である。
本研究の背景として,バスの群れ問題に着目する。
問題の主な考え方は、バスシステムから発車する乗客の非効率なバスタイミングによる遅延を最小限に抑えることである。
この地域での激しい探検は、パフォーマンスの限界に関してイノベーションと改善を図っているが、同時に、新しい一般化された技術を開発するための効果的なベースラインを提供する。
本研究会は,カリキュラム学習とその学習効率および総合成績への影響について検討することに関心がある。
我々は、カリキュラムが固定的あるいは離散的に閾値づけられていないカリキュラム学習に対して、あまり知られていないアプローチを試みることに決めた。
自動カリキュラム学習の方法は,エージェントの学習の困難さを増すために,エージェントネットワークによって動的に選択・学習され,複数の入力形式によって定義されるカリキュラムを含む。
本論文の結果は以下の節に示す。
関連論文リスト
- Reverse Forward Curriculum Learning for Extreme Sample and Demonstration Efficiency in Reinforcement Learning [17.092640837991883]
強化学習(Reinforcement Learning, RL)は、環境相互作用を通じてポリシーを学ぶための有望な枠組みである。
ひとつの方向性として、オフラインデータによるRLの拡張による望ましいタスクの実証があるが、過去の作業では、多くの高品質なデモデータが必要になることが多い。
提案手法における逆カリキュラムと前方カリキュラムの組み合わせ(RFCL)は,実演とサンプル効率を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-05-06T11:33:12Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - When Do Curricula Work in Federated Learning? [56.88941905240137]
カリキュラム学習は非IID性を大幅に軽減する。
クライアント間でデータ配布を多様化すればするほど、学習の恩恵を受けるようになる。
本稿では,クライアントの現実的格差を生かした新しいクライアント選択手法を提案する。
論文 参考訳(メタデータ) (2022-12-24T11:02:35Z) - Teacher-student curriculum learning for reinforcement learning [1.7259824817932292]
強化学習(rl)は、シーケンシャルな意思決定問題に対する一般的なパラダイムである。
深部強化学習手法のサンプル非効率性は,実世界の問題に適用する際の重要な障害である。
そこで我々は,学生が選択した課題の解き方を学習している間に,生徒の課題を選択する教師を同時に訓練する学習環境を提案する。
論文 参考訳(メタデータ) (2022-10-31T14:45:39Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Multi-task curriculum learning in a complex, visual, hard-exploration
domain: Minecraft [18.845438529816004]
私たちは、複雑な視覚的な領域でカリキュラムの学習を探索し、多くの難しい探索課題を経験します。
学習の進歩は,効果的なカリキュラムを自動構築する上で,学習可能性の信頼性の高い尺度であることが判明した。
論文 参考訳(メタデータ) (2021-06-28T17:50:40Z) - An Analytical Theory of Curriculum Learning in Teacher-Student Networks [10.303947049948107]
人間や動物では、カリキュラム学習は迅速な学習と効果的な教育に不可欠である。
機械学習では、キュリキュラは広く使われておらず、経験的には適度な利益しか得られない。
論文 参考訳(メタデータ) (2021-06-15T11:48:52Z) - Curriculum Learning: A Survey [65.31516318260759]
カリキュラム学習戦略は、機械学習のあらゆる分野で成功している。
我々は,様々な分類基準を考慮して,カリキュラム学習アプローチの分類を手作業で構築する。
集約型クラスタリングアルゴリズムを用いて,カリキュラム学習手法の階層木を構築する。
論文 参考訳(メタデータ) (2021-01-25T20:08:32Z) - Learning by Ignoring, with Application to Domain Adaptation [10.426533624387305]
学習を無視する学習(LBI)と呼ばれる新しい機械学習フレームワークを提案する。
本フレームワークは,各サンプルの無視変数を学習することにより,対象の分布から大きなドメインシフトを持つ事前学習データ例を自動的に識別し,事前学習プロセスから除外する。
LBIの3レベル最適化問題を効率よく解くために勾配に基づくアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-28T15:33:41Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Curriculum Learning for Reinforcement Learning Domains: A Framework and
Survey [53.73359052511171]
強化学習(Reinforcement Learning, RL)は、エージェントが限られた環境フィードバックしか持たないシーケンシャルな意思決定タスクに対処するための一般的なパラダイムである。
本稿では、RLにおけるカリキュラム学習(CL)の枠組みを提案し、既存のCLメソッドを仮定、能力、目標の観点から調査・分類する。
論文 参考訳(メタデータ) (2020-03-10T20:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。