論文の概要: The Frost Hollow Experiments: Pavlovian Signalling as a Path to
Coordination and Communication Between Agents
- arxiv url: http://arxiv.org/abs/2203.09498v1
- Date: Thu, 17 Mar 2022 17:49:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 13:14:13.215891
- Title: The Frost Hollow Experiments: Pavlovian Signalling as a Path to
Coordination and Communication Between Agents
- Title(参考訳): フロストホロー実験:エージェント間の協調とコミュニケーションの経路としてのパブロヴィアン信号
- Authors: Patrick M. Pilarski, Andrew Butcher, Elnaz Davoodi, Michael Bradley
Johanson, Dylan J. A. Brenneis, Adam S. R. Parker, Leslie Acker, Matthew M.
Botvinick, Joseph Modayil, Adam White
- Abstract要約: 本稿では,パブロフ信号の多面的研究に貢献する。
固定的な信号処理パラダイムと完全適応型通信学習の自然な橋渡しとしてパブロヴィアン信号処理を確立した。
本研究は, 強化学習エージェント間の連続的なコミュニケーション学習に向けた実践的, 建設的経路を示唆するものである。
- 参考スコア(独自算出の注目度): 7.980685978549764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learned communication between agents is a powerful tool when approaching
decision-making problems that are hard to overcome by any single agent in
isolation. However, continual coordination and communication learning between
machine agents or human-machine partnerships remains a challenging open
problem. As a stepping stone toward solving the continual communication
learning problem, in this paper we contribute a multi-faceted study into what
we term Pavlovian signalling -- a process by which learned, temporally extended
predictions made by one agent inform decision-making by another agent with
different perceptual access to their shared environment. We seek to establish
how different temporal processes and representational choices impact Pavlovian
signalling between learning agents. To do so, we introduce a partially
observable decision-making domain we call the Frost Hollow. In this domain a
prediction learning agent and a reinforcement learning agent are coupled into a
two-part decision-making system that seeks to acquire sparse reward while
avoiding time-conditional hazards. We evaluate two domain variations: 1)
machine prediction and control learning in a linear walk, and 2) a prediction
learning machine interacting with a human participant in a virtual reality
environment. Our results showcase the speed of learning for Pavlovian
signalling, the impact that different temporal representations do (and do not)
have on agent-agent coordination, and how temporal aliasing impacts agent-agent
and human-agent interactions differently. As a main contribution, we establish
Pavlovian signalling as a natural bridge between fixed signalling paradigms and
fully adaptive communication learning. Our results therefore point to an
actionable, constructivist path towards continual communication learning
between reinforcement learning agents, with potential impact in a range of
real-world settings.
- Abstract(参考訳): エージェント間の学習されたコミュニケーションは、独立したエージェントによって克服が難しい意思決定問題にアプローチする上で強力なツールである。
しかし、機械エージェントや人間と機械のパートナーシップ間の継続的な協調とコミュニケーションの学習は、未解決の問題である。
本稿では,Pavlovian signalling(パヴロヴィアン・シグナリング)と呼ばれる,あるエージェントによる時間的に拡張された予測を,他のエージェントが共有環境に異なる知覚的アクセスで通知するプロセスについて,多面的な研究を行った。
我々は,時間的プロセスと表現的選択が学習エージェント間のパブロフ的シグナル伝達に与える影響を明らかにする。
そのため、Frost Hollowと呼ばれる部分的に観測可能な意思決定ドメインを導入します。
このドメインでは、予測学習エージェントと強化学習エージェントを、時間条件の危険を回避しつつスパース報酬を取得しようとする2部決定システムに結合する。
ドメインのバリエーションを2つ評価する。
1)リニアウォークにおける機械予測と制御学習
2)バーチャルリアリティ環境において、人間と対話する予測学習機。
その結果,パブロフ信号の学習速度,時間的表現の違いがエージェントエージェント協調に与える影響,時間的エイリアシングがエージェントエージェントと人間エージェントの相互作用にどう影響するかが示された。
主な貢献として,固定信号処理パラダイムと完全適応通信学習の自然な橋渡しとしてパブロフ信号通信を確立する。
その結果,強化学習エージェント間の継続的なコミュニケーション学習に向けた行動可能かつ構成主義的な経路が示唆された。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Neural Amortized Inference for Nested Multi-agent Reasoning [54.39127942041582]
本研究では,人間のような推論能力と計算限界のギャップを埋める新しい手法を提案する。
提案手法を2つの挑戦的マルチエージェント相互作用領域で評価する。
論文 参考訳(メタデータ) (2023-08-21T22:40:36Z) - Pavlovian Signalling with General Value Functions in Agent-Agent
Temporal Decision Making [6.704848594973921]
Pavlovian signalling - あるエージェントが別のエージェントに意思決定を知らせ、時間的に拡張された予測を学習するプロセス。
主な貢献として、固定信号のパラダイムと2つのエージェント間の完全適応通信学習の自然な橋渡しとしてパブロフ信号が確立される。
論文 参考訳(メタデータ) (2022-01-11T00:14:04Z) - Assessing Human Interaction in Virtual Reality With Continually Learning
Prediction Agents Based on Reinforcement Learning Algorithms: A Pilot Study [6.076137037890219]
本研究では,人間と学習の継続する予測エージェントの相互作用が,エージェントの能力の発達とともにどのように発達するかを検討する。
我々は、強化学習(RL)アルゴリズムから学習した予測が人間の予測を増大させる仮想現実環境と時間ベースの予測タスクを開発する。
以上の結果から,人的信頼はエージェントとの早期の相互作用に影響され,信頼が戦略的行動に影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2021-12-14T22:46:44Z) - Interpretation of Emergent Communication in Heterogeneous Collaborative
Embodied Agents [83.52684405389445]
本稿では,コラボレーティブな多目的ナビゲーションタスクCoMONを紹介する。
この課題において、オラクルエージェントは、地図の形式で詳細な環境情報を有する。
視覚的に環境を知覚するナビゲーターエージェントと通信し、目標のシーケンスを見つけるのが任務である。
創発的コミュニケーションはエージェントの観察と3次元環境の空間構造に基礎を置くことができることを示す。
論文 参考訳(メタデータ) (2021-10-12T06:56:11Z) - Learning Proxemic Behavior Using Reinforcement Learning with Cognitive
Agents [1.0635883951034306]
プロキシミクス(英: Proxemics)は、人や動物の空間行動を研究する非言語コミュニケーションの一分野である。
本研究では, エージェントが環境中でどのように振る舞うかを, 確率的行動に基づいて検討する。
論文 参考訳(メタデータ) (2021-08-08T20:45:34Z) - Learning to Communicate and Correct Pose Errors [75.03747122616605]
本稿では、V2VNetで提案された設定について検討し、近くにある自動運転車が共同で物体検出と動き予測を協調的に行う方法を提案する。
本稿では,コミュニケーションを学習し,潜在的な誤りを推定し,それらの誤りについてコンセンサスを得るための新しいニューラルネットワーク推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-10T18:19:40Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - The Emergence of Adversarial Communication in Multi-Agent Reinforcement
Learning [6.18778092044887]
多くの現実世界の問題は、複数の自律エージェントの調整を必要とする。
最近の研究は、複雑なマルチエージェント協調を可能にする明示的なコミュニケーション戦略を学ぶためのグラフニューラルネットワーク(GNN)の約束を示している。
一つの利己的なエージェントが高度に操作的なコミュニケーション戦略を学習し、協調的なエージェントチームを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2020-08-06T12:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。