論文の概要: Intrinsic Motivation for Encouraging Synergistic Behavior
- arxiv url: http://arxiv.org/abs/2002.05189v1
- Date: Wed, 12 Feb 2020 19:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 18:42:51.765899
- Title: Intrinsic Motivation for Encouraging Synergistic Behavior
- Title(参考訳): シナジスティックな行動を促進する固有の動機付け
- Authors: Rohan Chitnis, Shubham Tulsiani, Saurabh Gupta, Abhinav Gupta
- Abstract要約: スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
- 参考スコア(独自算出の注目度): 55.10275467562764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the role of intrinsic motivation as an exploration bias for
reinforcement learning in sparse-reward synergistic tasks, which are tasks
where multiple agents must work together to achieve a goal they could not
individually. Our key idea is that a good guiding principle for intrinsic
motivation in synergistic tasks is to take actions which affect the world in
ways that would not be achieved if the agents were acting on their own. Thus,
we propose to incentivize agents to take (joint) actions whose effects cannot
be predicted via a composition of the predicted effect for each individual
agent. We study two instantiations of this idea, one based on the true states
encountered, and another based on a dynamics model trained concurrently with
the policy. While the former is simpler, the latter has the benefit of being
analytically differentiable with respect to the action taken. We validate our
approach in robotic bimanual manipulation and multi-agent locomotion tasks with
sparse rewards; we find that our approach yields more efficient learning than
both 1) training with only the sparse reward and 2) using the typical
surprise-based formulation of intrinsic motivation, which does not bias toward
synergistic behavior. Videos are available on the project webpage:
https://sites.google.com/view/iclr2020-synergistic.
- Abstract(参考訳): スパース・リワード・相乗的タスク(sparse-reward synergistic tasks)における強化学習のための探索バイアスとしての本質的動機づけの役割について検討した。
私たちの重要な考え方は、シナジスティックなタスクにおける本質的な動機づけのための優れた指針は、エージェントが単独で行動した場合に達成できない方法で世界に影響を与える行動を取ることです。
そこで本研究では,各エージェントに対する予測効果の合成によって予測できない作用を,各エージェントに対して与えるインセンティブについて提案する。
本稿では,この概念の2つのインスタンス化について検討する。一つは遭遇した真の状態に基づくもので,もう一つはポリシーと並行して訓練された力学モデルに基づくものである。
前者は単純であるが、後者は行動に関して分析的に微分可能であるという利点がある。
ロボットのバイマニュアル操作とマルチエージェント動作タスクにおける,スパース報酬によるアプローチの有効性を検証する。
1)軽微な報酬と報酬のみによる訓練
2) 主観的動機づけの典型的サプライズに基づく定式化は, 相乗的行動に偏らない。
ビデオはプロジェクトのWebページ(https://sites.google.com/view/iclr2020-synergistic)で公開されている。
関連論文リスト
- DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Learning Goal-based Movement via Motivational-based Models in Cognitive
Mobile Robots [58.720142291102135]
人間は、強さと文脈に応じて行動を促進する必要がある。
また、各行動の知覚的快楽に関連する嗜好も作り出します。
これにより、意思決定がより複雑になり、コンテキストに応じてニーズと嗜好のバランスを取ることが求められます。
論文 参考訳(メタデータ) (2023-02-20T04:52:24Z) - Collaborative Training of Heterogeneous Reinforcement Learning Agents in
Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。
計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文 参考訳(メタデータ) (2022-02-24T16:15:51Z) - Contrastive Active Inference [12.361539023886161]
本稿では,エージェントの生成モデル学習における計算負担を低減し,今後の行動計画を行うための,アクティブ推論のための対照的な目的を提案する。
提案手法は,画像に基づくタスクにおいて,確率に基づく能動推論よりも特に優れているが,計算処理が安価で,訓練も容易である。
論文 参考訳(メタデータ) (2021-10-19T16:20:49Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - Tracking Emotions: Intrinsic Motivation Grounded on Multi-Level
Prediction Error Dynamics [68.8204255655161]
目標達成に向けての進捗率と期待率の差が生じると、感情がどのように生じるかについて議論する。
自己生成的・動的目標に向けた行動を生成する本質的なモチベーションアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-07-29T06:53:13Z) - Learning intuitive physics and one-shot imitation using
state-action-prediction self-organizing maps [0.0]
人間は探索と模倣によって学び、世界の因果モデルを構築し、両方を使って新しいタスクを柔軟に解決する。
このような特徴を生み出す単純だが効果的な教師なしモデルを提案する。
エージェントがアクティブな推論スタイルで柔軟に解決する、複数の関連するが異なる1ショットの模倣タスクに対して、その性能を示す。
論文 参考訳(メタデータ) (2020-07-03T12:29:11Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。