論文の概要: Influencing Towards Stable Multi-Agent Interactions
- arxiv url: http://arxiv.org/abs/2110.08229v1
- Date: Tue, 5 Oct 2021 16:46:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-24 04:28:33.602346
- Title: Influencing Towards Stable Multi-Agent Interactions
- Title(参考訳): 安定なマルチエージェント相互作用へ与える影響
- Authors: Woodrow Z. Wang, Andy Shih, Annie Xie, Dorsa Sadigh
- Abstract要約: 多エージェント環境での学習は、相手やパートナーの行動の変化によってもたらされる非定常性のために困難である。
本稿では,他のエージェントの安定化戦略に積極的に影響を与えるアルゴリズムを提案する。
各種シミュレーション環境におけるタスク報酬の最大化における安定化の有効性を示す。
- 参考スコア(独自算出の注目度): 12.477674452685756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning in multi-agent environments is difficult due to the non-stationarity
introduced by an opponent's or partner's changing behaviors. Instead of
reactively adapting to the other agent's (opponent or partner) behavior, we
propose an algorithm to proactively influence the other agent's strategy to
stabilize -- which can restrain the non-stationarity caused by the other agent.
We learn a low-dimensional latent representation of the other agent's strategy
and the dynamics of how the latent strategy evolves with respect to our robot's
behavior. With this learned dynamics model, we can define an unsupervised
stability reward to train our robot to deliberately influence the other agent
to stabilize towards a single strategy. We demonstrate the effectiveness of
stabilizing in improving efficiency of maximizing the task reward in a variety
of simulated environments, including autonomous driving, emergent
communication, and robotic manipulation. We show qualitative results on our
website: https://sites.google.com/view/stable-marl/.
- Abstract(参考訳): マルチエージェント環境での学習は、相手や相手の変化行動によってもたらされる非定常性のため難しい。
他方のエージェントの動作に反応的に適応する代わりに、他方のエージェントの安定化戦略に積極的に影響を与えるアルゴリズムを提案し、他方のエージェントが引き起こす非定常性を抑える。
我々は,ロボットの動作に関して,他のエージェントの戦略の低次元潜伏表現と潜伏戦略の進化のダイナミクスを学習する。
この学習力学モデルを用いて、ロボットに意図的に他のエージェントに影響を与えて単一の戦略に向けて安定させるための教師なし安定報酬を定義することができる。
自律運転,創発的コミュニケーション,ロボット操作など,様々なシミュレーション環境において,タスク報酬を最大化する効率を向上させることの有効性を実証する。
https://sites.google.com/view/stable-marl/。
関連論文リスト
- Learning responsibility allocations for multi-agent interactions: A differentiable optimization approach with control barrier functions [12.074590482085831]
責任レンズを介して安全なマルチエージェントインタラクションを規定する要因を定式化する。
本稿では,制御障壁関数と微分可能最適化に基づくデータ駆動モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T20:20:41Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Learning Goal-based Movement via Motivational-based Models in Cognitive
Mobile Robots [58.720142291102135]
人間は、強さと文脈に応じて行動を促進する必要がある。
また、各行動の知覚的快楽に関連する嗜好も作り出します。
これにより、意思決定がより複雑になり、コンテキストに応じてニーズと嗜好のバランスを取ることが求められます。
論文 参考訳(メタデータ) (2023-02-20T04:52:24Z) - ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via
Convex Relaxation [32.091346776897744]
サイバー物理攻撃は、マルチエージェント強化学習の堅牢性に挑戦することができる。
我々は,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T16:18:35Z) - Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。
本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。
提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T13:25:13Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - MIDAS: Multi-agent Interaction-aware Decision-making with Adaptive
Strategies for Urban Autonomous Navigation [22.594295184455]
そこで本研究では,エゴエージェントが他車の制御動作に影響を与えることを学習する,MIDASと呼ばれる強化学習手法を構築した。
MIDAS は広範にわたる実験により検証され,(i) 異なる道路測地をまたいで動作可能であること,(ii) 外部エージェントの駆動方針の変化に対して堅牢であること,(iv) インタラクション対応意思決定に対する既存のアプローチよりも効率的で安全であること,などが示されている。
論文 参考訳(メタデータ) (2020-08-17T04:34:25Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z) - Towards Learning Multi-agent Negotiations via Self-Play [2.28438857884398]
自己再生の反復的な手順が、徐々に多様な環境を創り出す方法を示す。
これは高度で堅牢なマルチエージェントポリシーの学習につながります。
合併操作の成功率は63%から98%に劇的に改善した。
論文 参考訳(メタデータ) (2020-01-28T08:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。