論文の概要: Pavlovian Signalling with General Value Functions in Agent-Agent
Temporal Decision Making
- arxiv url: http://arxiv.org/abs/2201.03709v1
- Date: Tue, 11 Jan 2022 00:14:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 19:25:53.811975
- Title: Pavlovian Signalling with General Value Functions in Agent-Agent
Temporal Decision Making
- Title(参考訳): エージェントエージェント時間決定における一般値関数を持つパブロフ信号伝達
- Authors: Andrew Butcher, Michael Bradley Johanson, Elnaz Davoodi, Dylan J. A.
Brenneis, Leslie Acker, Adam S. R. Parker, Adam White, Joseph Modayil,
Patrick M. Pilarski
- Abstract要約: Pavlovian signalling - あるエージェントが別のエージェントに意思決定を知らせ、時間的に拡張された予測を学習するプロセス。
主な貢献として、固定信号のパラダイムと2つのエージェント間の完全適応通信学習の自然な橋渡しとしてパブロフ信号が確立される。
- 参考スコア(独自算出の注目度): 6.704848594973921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we contribute a multi-faceted study into Pavlovian signalling
-- a process by which learned, temporally extended predictions made by one
agent inform decision-making by another agent. Signalling is intimately
connected to time and timing. In service of generating and receiving signals,
humans and other animals are known to represent time, determine time since past
events, predict the time until a future stimulus, and both recognize and
generate patterns that unfold in time. We investigate how different temporal
processes impact coordination and signalling between learning agents by
introducing a partially observable decision-making domain we call the Frost
Hollow. In this domain, a prediction learning agent and a reinforcement
learning agent are coupled into a two-part decision-making system that works to
acquire sparse reward while avoiding time-conditional hazards. We evaluate two
domain variations: machine agents interacting in a seven-state linear walk, and
human-machine interaction in a virtual-reality environment. Our results
showcase the speed of learning for Pavlovian signalling, the impact that
different temporal representations do (and do not) have on agent-agent
coordination, and how temporal aliasing impacts agent-agent and human-agent
interactions differently. As a main contribution, we establish Pavlovian
signalling as a natural bridge between fixed signalling paradigms and fully
adaptive communication learning between two agents. We further show how to
computationally build this adaptive signalling process out of a fixed
signalling process, characterized by fast continual prediction learning and
minimal constraints on the nature of the agent receiving signals. Our results
therefore suggest an actionable, constructivist path towards communication
learning between reinforcement learning agents.
- Abstract(参考訳): 本稿では,パブロフ信号の多面的研究に寄与し,あるエージェントが他のエージェントから意思決定を通知する時間的拡張予測プロセスを提案する。
信号は時間とタイミングに密接に関連している。
信号の生成と受信を行う際、人間や他の動物は時間を表し、過去の出来事から時間を決定し、将来の刺激まで時間を予測し、時間とともに広がるパターンを認識し、生成することが知られている。
時間的プロセスの違いが学習エージェント間の協調とシグナル伝達にどのように影響するかを,Frost Hollowと呼ばれる部分的に観測可能な意思決定ドメインを導入することによって検討する。
このドメインでは、予測学習エージェントと強化学習エージェントとを、時間的ハザードを避けながらスパース報酬を得るための2部意思決定システムに結合する。
7状態線形歩行における機械エージェントの相互作用と,仮想現実環境における人間と機械の相互作用である。
その結果,パブロフ信号の学習速度,時間的表現の違いがエージェントエージェント協調に与える影響,時間的エイリアシングがエージェントエージェントと人間エージェントの相互作用にどう影響するかが示された。
主な貢献として、固定信号のパラダイムと2つのエージェント間の完全適応通信学習の自然なブリッジとしてパブロフ信号を確立する。
さらに,高速な連続予測学習とエージェント受信信号の性質に関する最小限の制約を特徴とする,固定的な信号処理からこの適応的信号処理を計算的に構築する方法を示す。
この結果から,強化学習エージェント間のコミュニケーション学習への実践的で建設的な道筋が示唆された。
関連論文リスト
- Neural Interaction Energy for Multi-Agent Trajectory Prediction [55.098754835213995]
ニューラル・インタラクション・エナジー(MATE)によるマルチエージェント軌道予測(Multi-Agent Trajectory Prediction)というフレームワークを導入する。
MATEは神経相互作用エネルギーを用いてエージェントの対話運動を評価する。
時間的安定性を高めるために,エージェント間相互作用制約とエージェント内動作制約という2つの制約を導入する。
論文 参考訳(メタデータ) (2024-04-25T12:47:47Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - SMEMO: Social Memory for Trajectory Forecasting [34.542209630734234]
本稿では、外部記憶装置として機能するエンドツーエンドのトレーニング可能なワーキングメモリに基づくニューラルネットワークを提案する。
提案手法は,異なるエージェントの動き間の説明可能な因果関係を学習し,軌跡予測データセットの最先端結果を得ることができることを示す。
論文 参考訳(メタデータ) (2022-03-23T14:40:20Z) - The Frost Hollow Experiments: Pavlovian Signalling as a Path to
Coordination and Communication Between Agents [7.980685978549764]
本稿では,パブロフ信号の多面的研究に貢献する。
固定的な信号処理パラダイムと完全適応型通信学習の自然な橋渡しとしてパブロヴィアン信号処理を確立した。
本研究は, 強化学習エージェント間の連続的なコミュニケーション学習に向けた実践的, 建設的経路を示唆するものである。
論文 参考訳(メタデータ) (2022-03-17T17:49:45Z) - Assessing Human Interaction in Virtual Reality With Continually Learning
Prediction Agents Based on Reinforcement Learning Algorithms: A Pilot Study [6.076137037890219]
本研究では,人間と学習の継続する予測エージェントの相互作用が,エージェントの能力の発達とともにどのように発達するかを検討する。
我々は、強化学習(RL)アルゴリズムから学習した予測が人間の予測を増大させる仮想現実環境と時間ベースの予測タスクを開発する。
以上の結果から,人的信頼はエージェントとの早期の相互作用に影響され,信頼が戦略的行動に影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2021-12-14T22:46:44Z) - Learning Proxemic Behavior Using Reinforcement Learning with Cognitive
Agents [1.0635883951034306]
プロキシミクス(英: Proxemics)は、人や動物の空間行動を研究する非言語コミュニケーションの一分野である。
本研究では, エージェントが環境中でどのように振る舞うかを, 確率的行動に基づいて検討する。
論文 参考訳(メタデータ) (2021-08-08T20:45:34Z) - Unlimited Neighborhood Interaction for Heterogeneous Trajectory
Prediction [97.40338982628094]
マルチプライカテゴリにおける異種エージェントの軌跡を予測できる,シンプルで効果的な非境界相互作用ネットワーク (UNIN) を提案する。
具体的には、提案した無制限近傍相互作用モジュールは、相互作用に関与するすべてのエージェントの融合特徴を同時に生成する。
階層型グラフアテンションモジュールを提案し,カテゴリ間相互作用とエージェント間相互作用を求める。
論文 参考訳(メタデータ) (2021-07-31T13:36:04Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Investigating Human Response, Behaviour, and Preference in Joint-Task
Interaction [3.774610219328564]
我々は、説明可能な計画(XAIP)エージェントと相互作用する人間の行動と反応を調べる実験を設計した。
また,シミュレーションユーザに対する2つのエージェントの挙動を実証分析により検討した。
論文 参考訳(メタデータ) (2020-11-27T22:16:59Z) - Learning to Communicate and Correct Pose Errors [75.03747122616605]
本稿では、V2VNetで提案された設定について検討し、近くにある自動運転車が共同で物体検出と動き予測を協調的に行う方法を提案する。
本稿では,コミュニケーションを学習し,潜在的な誤りを推定し,それらの誤りについてコンセンサスを得るための新しいニューラルネットワーク推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-10T18:19:40Z) - On the interaction between supervision and self-play in emergent
communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。
人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文 参考訳(メタデータ) (2020-02-04T02:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。