論文の概要: Learning to Switch Between Machines and Humans
- arxiv url: http://arxiv.org/abs/2002.04258v2
- Date: Mon, 22 Feb 2021 08:43:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 02:12:25.903932
- Title: Learning to Switch Between Machines and Humans
- Title(参考訳): 機械と人間を切り替えることを学ぶ
- Authors: Vahid Balazadeh Meresht and Abir De and Adish Singla and Manuel
Gomez-Rodriguez
- Abstract要約: 既存の強化学習エージェントを異なる自動化レベルで動作させるアルゴリズムを開発した。
まず、マルコフ決定プロセスを通じて、チーム内のエージェント間の制御を切り替えることを学ぶことの課題を定義する。
我々のアルゴリズムは、複数の独立したエージェントチーム間でのスイッチングポリシーの複数のシーケンスを見つけるのに利用できることを示す。
- 参考スコア(独自算出の注目度): 41.04897149364321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning agents have been mostly developed and evaluated under
the assumption that they will operate in a fully autonomous manner -- they will
take all actions. In this work, our goal is to develop algorithms that, by
learning to switch control between machine and human agents, allow existing
reinforcement learning agents to operate under different automation levels. To
this end, we first formally define the problem of learning to switch control
among agents in a team via a 2-layer Markov decision process. Then, we develop
an online learning algorithm that uses upper confidence bounds on the agents'
policies and the environment's transition probabilities to find a sequence of
switching policies. We prove that the total regret of our algorithm with
respect to the optimal switching policy is sublinear in the number of learning
steps. Moreover, we also show that our algorithm can be used to find multiple
sequences of switching policies across several independent teams of agents
operating in similar environments, where it greatly benefits from maintaining
shared confidence bounds for the environments' transition probabilities.
Simulation experiments in obstacle avoidance in a semi-autonomous driving
scenario illustrate our theoretical findings and demonstrate that, by
exploiting the specific structure of the problem, our proposed algorithm is
superior to problem-agnostic algorithms.
- Abstract(参考訳): 強化学習エージェントは、完全に自律的な方法で運用されるという前提のもと、主に開発され、評価されてきた。
本研究の目的は、機械と人間のエージェント間の制御を切り替えることによって、既存の強化学習エージェントを異なる自動化レベルで動作させるアルゴリズムを開発することである。
この目的のために、我々はまず、2層マルコフ決定プロセスを通じてチーム内のエージェント間の制御を切り替える学習の問題を正式に定義する。
そこで我々は,エージェントのポリシーと環境の遷移確率に高い信頼度を用いたオンライン学習アルゴリズムを開発し,スイッチングポリシのシーケンスを探索する。
最適切替ポリシーに対するアルゴリズムの完全な後悔は、学習ステップの数に比例するものであることを証明している。
さらに,我々のアルゴリズムは,環境の遷移確率の共有信頼境界の維持に大きく貢献する,複数の独立したエージェントチーム間で,複数のスイッチングポリシーのシーケンスを見つけるためにも利用できることを示す。
半自律運転シナリオにおける障害物回避のシミュレーション実験は,我々の理論的知見を示し,問題の構造を生かして,提案手法が問題非依存アルゴリズムよりも優れていることを示す。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Multi-Agent Bandit Learning through Heterogeneous Action Erasure Channels [21.860440468189044]
Multi-Armed Bandit (MAB) システムはマルチエージェント分散環境におけるアプリケーションの増加を目撃している。
このような設定では、アクションを実行するエージェントと、意思決定を行う一次学習者とのコミュニケーションは、学習プロセスを妨げる可能性がある。
本研究では,学習者が異種行動消去チャネルをまたいで分散エージェントと並列に対話できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-21T19:21:19Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - On the Convergence of Distributed Stochastic Bilevel Optimization
Algorithms over a Network [55.56019538079826]
バイレベル最適化は、幅広い機械学習モデルに適用されている。
既存のアルゴリズムの多くは、分散データを扱うことができないように、シングルマシンの設定を制限している。
そこで我々は,勾配追跡通信機構と2つの異なる勾配に基づく分散二段階最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-30T05:29:52Z) - Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文 参考訳(メタデータ) (2022-02-17T01:14:20Z) - Decentralized Multi-Agent Reinforcement Learning: An Off-Policy Method [6.261762915564555]
本稿では,分散型マルチエージェント強化学習(MARL)の問題について議論する。
我々の設定では、グローバルステート、アクション、報酬は、完全に監視可能であると仮定され、一方、ローカルポリシーは各エージェントによってプライバシとして保護されているため、他の人と共有することはできない。
政策評価と政策改善のアルゴリズムはそれぞれ、離散的かつ連続的な状態-行動空間マルコフ決定プロセス(MDP)のために設計されている。
論文 参考訳(メタデータ) (2021-10-31T09:08:46Z) - SA-MATD3:Self-attention-based multi-agent continuous control method in
cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。
マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。
提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文 参考訳(メタデータ) (2021-07-01T08:15:05Z) - Scalable, Decentralized Multi-Agent Reinforcement Learning Methods
Inspired by Stigmergy and Ant Colonies [0.0]
分散型マルチエージェント学習と計画に対する新しいアプローチを検討する。
特に、この方法はアリコロニーの凝集、協調、行動に触発されている。
このアプローチは、単一エージェントRLと、マルチエージェントパス計画と環境修正のためのアリコロニーに触発された分散型のスティグメロジカルアルゴリズムを組み合わせたものである。
論文 参考訳(メタデータ) (2021-05-08T01:04:51Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。