論文の概要: Robustifying a Policy in Multi-Agent RL with Diverse Cooperative Behaviors and Adversarial Style Sampling for Assistive Tasks
- arxiv url: http://arxiv.org/abs/2403.00344v2
- Date: Mon, 1 Apr 2024 08:29:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 08:29:27.817240
- Title: Robustifying a Policy in Multi-Agent RL with Diverse Cooperative Behaviors and Adversarial Style Sampling for Assistive Tasks
- Title(参考訳): 異種協調行動をもつ多エージェントRLのロバスト化と補助課題に対する対角的スタイルサンプリング
- Authors: Takayuki Osa, Tatsuya Harada,
- Abstract要約: 多様な介護者対応を訓練することで、ロバストな介護者の方針を学習する枠組みを提案する。
一般的な深層RL法で訓練されたポリシーは、他のエージェントのポリシーの変更に対して脆弱であることを示す。
- 参考スコア(独自算出の注目度): 51.00472376469131
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autonomous assistance of people with motor impairments is one of the most promising applications of autonomous robotic systems. Recent studies have reported encouraging results using deep reinforcement learning (RL) in the healthcare domain. Previous studies showed that assistive tasks can be formulated as multi-agent RL, wherein there are two agents: a caregiver and a care-receiver. However, policies trained in multi-agent RL are often sensitive to the policies of other agents. In such a case, a trained caregiver's policy may not work for different care-receivers. To alleviate this issue, we propose a framework that learns a robust caregiver's policy by training it for diverse care-receiver responses. In our framework, diverse care-receiver responses are autonomously learned through trials and errors. In addition, to robustify the care-giver's policy, we propose a strategy for sampling a care-receiver's response in an adversarial manner during the training. We evaluated the proposed method using tasks in an Assistive Gym. We demonstrate that policies trained with a popular deep RL method are vulnerable to changes in policies of other agents and that the proposed framework improves the robustness against such changes.
- Abstract(参考訳): 運動障害を持つ人々の自律支援は、自律ロボットシステムの最も有望な応用の1つである。
近年,医療領域における深部強化学習(RL)による奨励効果が報告されている。
これまでの研究では、補助作業はマルチエージェントRLとして定式化することができ、介護者と介護者という2つのエージェントが存在することが示されていた。
しかし、マルチエージェントRLで訓練されたポリシーは、しばしば他のエージェントのポリシーに敏感である。
このような場合、訓練された介護者の政策は、異なる介護者のためには機能しない可能性がある。
この問題を軽減するために,多様な介護者対応を訓練し,ロバストな介護者の政策を学習する枠組みを提案する。
我々の枠組みでは、多様な介護者反応は、試行錯誤によって自律的に学習される。
また,介護者の政策を強固にするために,研修中に相手方で介護者の反応をサンプリングする手法を提案する。
Assistive Gym におけるタスクを用いた提案手法の評価を行った。
我々は,一般的な深層RL法で訓練されたポリシが,他のエージェントのポリシの変更に対して脆弱であること,提案手法がこのような変更に対する堅牢性を向上させることを実証する。
関連論文リスト
- RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - A Policy Resonance Approach to Solve the Problem of Responsibility
Diffusion in Multiagent Reinforcement Learning [9.303181273699417]
単一エージェント探索探索戦略を単一エージェントアルゴリズムから必然的に継承することは、潜在的なコラボレーションの失敗を引き起こす。
我々はこの問題を責任拡散(RD)と呼び、同名の社会心理学効果と類似点を共有している。
我々は,複雑な協調作業におけるエージェントの協調的性能を促進するために,SOTAアルゴリズムがこのアプローチを適用可能であることを示す。
論文 参考訳(メタデータ) (2022-08-16T13:56:00Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - MORAL: Aligning AI with Human Norms through Multi-Objective Reinforced
Active Learning [14.06682547001011]
最先端の手法は通常、単一の報酬モデルを学ぶことに集中します。
本稿では,多目的強化型アクティブラーニング(MORAL)を提案する。
提案手法では,複数ポリシの計算を不要にしながら,さまざまな好みに対して深いRLエージェントを対話的にチューニングすることが可能である。
論文 参考訳(メタデータ) (2021-12-30T19:21:03Z) - SA-MATD3:Self-attention-based multi-agent continuous control method in
cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。
マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。
提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文 参考訳(メタデータ) (2021-07-01T08:15:05Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Scalable, Decentralized Multi-Agent Reinforcement Learning Methods
Inspired by Stigmergy and Ant Colonies [0.0]
分散型マルチエージェント学習と計画に対する新しいアプローチを検討する。
特に、この方法はアリコロニーの凝集、協調、行動に触発されている。
このアプローチは、単一エージェントRLと、マルチエージェントパス計画と環境修正のためのアリコロニーに触発された分散型のスティグメロジカルアルゴリズムを組み合わせたものである。
論文 参考訳(メタデータ) (2021-05-08T01:04:51Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。