論文の概要: HARP: Human-Assisted Regrouping with Permutation Invariant Critic for Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.11741v1
- Date: Wed, 18 Sep 2024 06:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 19:00:08.040274
- Title: HARP: Human-Assisted Regrouping with Permutation Invariant Critic for Multi-Agent Reinforcement Learning
- Title(参考訳): HARP:多エージェント強化学習のための置換不変批判を用いた人間支援リグループ化
- Authors: Huawen Hu, Enze Shi, Chenxi Yue, Shuocun Yang, Zihao Wu, Yiwei Li, Tianyang Zhong, Tuo Zhang, Tianming Liu, Shu Zhang,
- Abstract要約: グループ指向タスクのための多エージェント強化学習フレームワークであるHARP(Human-Assisted Regrouping with Permutation Invariant Critic)を提案する。
HARPは、自動エージェント再編成と、展開中の戦略的人的支援を統合し、非専門家が効果的なガイダンスを提供することを可能にしている。
複数のコラボレーションシナリオにおいて、私たちのアプローチは、非専門家からの限られたガイダンスを活用でき、パフォーマンスを向上させることができます。
- 参考スコア(独自算出の注目度): 22.820017018732994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-in-the-loop reinforcement learning integrates human expertise to accelerate agent learning and provide critical guidance and feedback in complex fields. However, many existing approaches focus on single-agent tasks and require continuous human involvement during the training process, significantly increasing the human workload and limiting scalability. In this paper, we propose HARP (Human-Assisted Regrouping with Permutation Invariant Critic), a multi-agent reinforcement learning framework designed for group-oriented tasks. HARP integrates automatic agent regrouping with strategic human assistance during deployment, enabling and allowing non-experts to offer effective guidance with minimal intervention. During training, agents dynamically adjust their groupings to optimize collaborative task completion. When deployed, they actively seek human assistance and utilize the Permutation Invariant Group Critic to evaluate and refine human-proposed groupings, allowing non-expert users to contribute valuable suggestions. In multiple collaboration scenarios, our approach is able to leverage limited guidance from non-experts and enhance performance. The project can be found at https://github.com/huawen-hu/HARP.
- Abstract(参考訳): ヒューマン・イン・ザ・ループ強化学習(Human-in-the-loop reinforcement learning)は、エージェント学習を加速するために人間の専門知識を統合し、複雑な分野において重要なガイダンスとフィードバックを提供する。
しかし、既存の多くのアプローチは、単一エージェントタスクに重点を置いており、トレーニングプロセス中に継続的な人間による関与を必要とし、人間のワークロードを大幅に増加させ、スケーラビリティを制限している。
本稿では,グループ指向タスクを対象としたマルチエージェント強化学習フレームワークHARPを提案する。
HARPは、展開中の戦略的人的支援と自動エージェント再編成を統合し、非専門家が最小限の介入で効果的なガイダンスを提供することを可能にしている。
訓練中、エージェントはグループ化を動的に調整し、協調作業の完了を最適化する。
配備されると、彼らは積極的に人的援助を求め、Permutation Invariant Group Criticを使って、人間が提案するグループを評価し、洗練し、非専門家のユーザーが価値ある提案を貢献できるようにする。
複数のコラボレーションシナリオにおいて、私たちのアプローチは、非専門家からの限られたガイダンスを活用でき、パフォーマンスを向上させることができます。
このプロジェクトはhttps://github.com/huawen-hu/HARPで見ることができる。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Adaptive In-conversation Team Building for Language Model Agents [33.03550687362213]
複数の大規模言語モデル(LLM)エージェントを活用することは、複雑なタスクに取り組む上で有望なアプローチであることが示されている。
私たちの新しい適応型チーム構築パラダイムは、Captain Agentという新しいエージェント設計を通じて実現された柔軟なソリューションを提供します。
6つの実世界のシナリオに対する包括的な評価は、Captain Agentが既存のマルチエージェントメソッドを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-29T18:08:37Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - Robust Reinforcement Learning via Genetic Curriculum [5.421464476555662]
遺伝的カリキュラムは、エージェントが現在失敗しているシナリオを自動的に識別し、関連するカリキュラムを生成するアルゴリズムである。
我々の実証研究は、既存の技術アルゴリズムよりも堅牢性の向上を示し、2倍から8倍のエージェントが失敗する確率の低いトレーニングカリキュラムを提供する。
論文 参考訳(メタデータ) (2022-02-17T01:14:20Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Multi-Agent Reinforcement Learning for Problems with Combined Individual
and Team Reward [0.0]
本稿では,新しい多エージェント強化学習フレームワークであるDecomposed Multi-Agent Deep Deterministic Policy Gradient (DE-MADDPG)を提案する。
提案手法は,MADDPGアルゴリズムの直接適応よりもはるかに優れた,より安定した性能が得られることを示す。
論文 参考訳(メタデータ) (2020-03-24T00:55:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。