Fugu-MT 論文翻訳(概要): Attention Actor-Critic algorithm for Multi-Agent Constrained Co-operative Reinforcement Learning

論文の概要: Attention Actor-Critic algorithm for Multi-Agent Constrained Co-operative Reinforcement Learning

arxiv url: http://arxiv.org/abs/2101.02349v1
Date: Thu, 7 Jan 2021 03:21:15 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-10 13:32:11.541721
Title: Attention Actor-Critic algorithm for Multi-Agent Constrained Co-operative Reinforcement Learning
Title（参考訳）: マルチエージェント制約付き協調強化学習のためのアテンションアクタ・クリティカルアルゴリズム
Authors: P.Parnika, Raghuram Bharadwaj Diddigi, Sai Koti Reddy Danda and Shalabh Bhatnagar
Abstract要約: 協調的な環境下での強化学習(RL)エージェントの最適動作の計算問題について考察する。我々はこのアルゴリズムを制約付きマルチエージェントRL設定に拡張する。
参考スコア（独自算出の注目度）: 3.296127938396392
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we consider the problem of computing optimal actions for Reinforcement Learning (RL) agents in a co-operative setting, where the objective is to optimize a common goal. However, in many real-life applications, in addition to optimizing the goal, the agents are required to satisfy certain constraints specified on their actions. Under this setting, the objective of the agents is to not only learn the actions that optimize the common objective but also meet the specified constraints. In recent times, the Actor-Critic algorithm with an attention mechanism has been successfully applied to obtain optimal actions for RL agents in multi-agent environments. In this work, we extend this algorithm to the constrained multi-agent RL setting. The idea here is that optimizing the common goal and satisfying the constraints may require different modes of attention. By incorporating different attention modes, the agents can select useful information required for optimizing the objective and satisfying the constraints separately, thereby yielding better actions. Through experiments on benchmark multi-agent environments, we show the effectiveness of our proposed algorithm.
Abstract（参考訳）: 本研究では,共通目標の最適化を目的とした協調学習環境において,強化学習 (rl) エージェントの最適動作を計算することの問題点について考察する。しかし、多くの現実のアプリケーションでは、目標の最適化に加えて、エージェントはアクションに指定された特定の制約を満たす必要がある。この設定の下で、エージェントの目的は、共通の目的を最適化するアクションを学ぶだけでなく、指定された制約を満たすことである。近年,マルチエージェント環境下でのRLエージェントの最適動作を得るために,アテンション機構を持つアクター・クライブアルゴリズムが成功している。本研究では,このアルゴリズムを制約付きマルチエージェントRL設定に拡張する。ここでの考え方は、共通の目標を最適化し、制約を満たすには、異なる注意のモードが必要になるかもしれないということです。異なるアテンションモードを組み込むことにより、エージェントは目標を最適化し、制約を個別に満たすのに必要な有用な情報を選択でき、より良いアクションが得られる。ベンチマークマルチエージェント環境における実験を通じて,提案手法の有効性を示す。

関連論文リスト

Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front [9.04360155372014]
制約付きMORLは制約付きポリシー最適化とMORLのシームレスなブリッジである。我々のアルゴリズムは、離散的かつ連続的な制御タスクにおいて、ハイパーボリューム、期待されるユーティリティ、およびスパーシリティという観点でより一貫性があり、優れた性能を達成する。
論文参考訳（メタデータ） (2024-10-03T06:13:56Z)
Satisficing Exploration for Deep Reinforcement Learning [26.73584163318647]
現実世界の広大さと規模にアプローチする複雑な環境では、最適な性能を達成することは、実際には完全に難易度の高い試みであるかもしれない。最近の研究は、情報理論から設計エージェントへのツールを活用し、十分な満足や満足のいくソリューションを優先して最適なソリューションを意図的に実現している。モデルベース計画の必要性を回避し、満足度の高いポリシーを学習できるように、最適な値関数に対する不確実性を直接表現するエージェントを拡張します。
論文参考訳（メタデータ） (2024-07-16T21:28:03Z)
Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文参考訳（メタデータ） (2024-07-04T02:19:49Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
A Scale-Independent Multi-Objective Reinforcement Learning with Convergence Analysis [0.6091702876917281]
多くのシーケンシャルな意思決定問題は、対立する可能性のある異なる目的の最適化を必要とする。本稿では,Advantage Actor-Critic (A2C)アルゴリズムに基づいて,単エージェントスケール非依存型多目的強化学習を開発する。次に、収束保証を提供する考案された多目的アルゴリズムに対して収束解析を行う。
論文参考訳（メタデータ） (2023-02-08T16:38:55Z)
Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文参考訳（メタデータ） (2022-10-07T00:40:59Z)
Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文参考訳（メタデータ） (2021-02-05T14:26:00Z)
Resource Aware Multifidelity Active Learning for Efficient Optimization [0.8717253904965373]
本稿では,ブラックボックス関数の最適化を高速化するためのリソース・アウェア・アクティブ・ラーニング(RAAL)戦略を紹介する。 RAAL戦略は最適化タスクの大幅な高速化を可能にするために、最適に複数のポイントを投入する。
論文参考訳（メタデータ） (2020-07-09T10:01:32Z)
A Distributional View on Multi-Objective Policy Optimization [24.690800846837273]
大規模不変な方法で目的の好みを設定することができる多目的強化学習アルゴリズムを提案する。フレームワーク内で異なる好みを設定することで、非支配的なソリューションの空間を追跡できることを示す。
論文参考訳（メタデータ） (2020-05-15T13:02:17Z)
Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文参考訳（メタデータ） (2020-02-10T04:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。