論文の概要: Play with Emotion: Affect-Driven Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2208.12622v1
- Date: Fri, 26 Aug 2022 12:28:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 12:42:49.824135
- Title: Play with Emotion: Affect-Driven Reinforcement Learning
- Title(参考訳): 感情と遊ぶ - 感情駆動強化学習
- Authors: Matthew Barthet, Ahmed Khalifa, Antonios Liapis and Georgios N.
Yannakakis
- Abstract要約: 本稿では、強化学習プロセスとして、感情モデリングの課題を観ることによるパラダイムシフトを紹介する。
我々は,Go-Blendエージェントをトレーニングし,覚醒と行動の人間の実演をモデル化することで,レースゲームにおける仮説を検証した。
- 参考スコア(独自算出の注目度): 3.611888922173257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a paradigm shift by viewing the task of affect modeling
as a reinforcement learning (RL) process. According to the proposed paradigm,
RL agents learn a policy (i.e. affective interaction) by attempting to maximize
a set of rewards (i.e. behavioral and affective patterns) via their experience
with their environment (i.e. context). Our hypothesis is that RL is an
effective paradigm for interweaving affect elicitation and manifestation with
behavioral and affective demonstrations. Importantly, our second
hypothesis-building on Damasio's somatic marker hypothesis-is that emotion can
be the facilitator of decision-making. We test our hypotheses in a racing game
by training Go-Blend agents to model human demonstrations of arousal and
behavior; Go-Blend is a modified version of the Go-Explore algorithm which has
recently showcased supreme performance in hard exploration tasks. We first vary
the arousal-based reward function and observe agents that can effectively
display a palette of affect and behavioral patterns according to the specified
reward. Then we use arousal-based state selection mechanisms in order to bias
the strategies that Go-Blend explores. Our findings suggest that Go-Blend not
only is an efficient affect modeling paradigm but, more importantly,
affect-driven RL improves exploration and yields higher performing agents,
validating Damasio's hypothesis in the domain of games.
- Abstract(参考訳): 本稿では、強化学習(RL)プロセスとして、影響モデリングの課題を観察することでパラダイムシフトを導入する。
提案されたパラダイムによれば、RLエージェントは、環境(文脈)の経験を通じて、報酬(行動的および情緒的パターン)の集合を最大化することによって、ポリシー(感情的相互作用)を学ぶ。
我々の仮説は、RLが織り込みの効果的なパラダイムであり、行動的・情緒的なデモンストレーションによる誘発と顕在化に影響を及ぼすというものである。
重要なことは、ダマシオのソマティックマーカー仮説に関する第2の仮説は、感情が意思決定のファシリテーターになり得るということである。
Go-Blendは、Go-Exploreアルゴリズムの修正版であり、最近、ハードな探索作業において最高のパフォーマンスを示した。
まず,感情と行動パターンのパレットを,指定された報酬に応じて効果的に表示できるエージェントを観察する。
次に、刺激に基づく状態選択機構を使用して、Go-Blendが探求する戦略をバイアスします。
以上の結果から,Go-Blendは効果的な影響モデルパラダイムであるだけでなく,より重要なこととして,ゲーム領域におけるDamasioの仮説を検証し,探索を改善し,より高いパフォーマンスのエージェントが得られることが示唆された。
関連論文リスト
- Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Action Inference by Maximising Evidence: Zero-Shot Imitation from
Observation with World Models [9.583751440005118]
我々は,この行動を世界モデルを用いて再現するために,エビデンスを最大化する行動推論(AIME)を提案する。
AIMEは、2つの異なるフェーズから構成されており、第1フェーズでは、エージェントが過去の経験から世界モデルを学び、ELBOを最大化することで自身の身体を理解する。
第2フェーズでは、エージェントは、新しいタスクを実行する専門家の観察のみのデモンストレーションを受け、専門家の行動を模倣しようとする。
本手法は実演後の世界モデルや環境とのオンラインインタラクションのさらなる訓練を必要としないという意味で「ゼロショット」である。
論文 参考訳(メタデータ) (2023-12-04T16:43:36Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Learning Goal-based Movement via Motivational-based Models in Cognitive
Mobile Robots [58.720142291102135]
人間は、強さと文脈に応じて行動を促進する必要がある。
また、各行動の知覚的快楽に関連する嗜好も作り出します。
これにより、意思決定がより複雑になり、コンテキストに応じてニーズと嗜好のバランスを取ることが求められます。
論文 参考訳(メタデータ) (2023-02-20T04:52:24Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Modelling Behaviour Change using Cognitive Agent Simulations [0.0]
本稿では, シミュレーションエージェントに選択された行動変化理論を適用するために, プログレッシブ・イン・プログレッシブ・リサーチを提案する。
この研究は、不適切な状況下での自己決定的目標達成に必要な複雑なエージェントアーキテクチャに焦点を当てている。
論文 参考訳(メタデータ) (2021-10-16T19:19:08Z) - Go-Blend behavior and affect [2.323282558557423]
本稿では、感情モデリングタスクを強化学習プロセスとして見ることにより、感情コンピューティングのパラダイムシフトを提案する。
本研究では,Go-Exploreエージェントを最適にプレイし,人間の覚醒のデモンストレーションを模倣しようとすることで,アーケードゲームにおける我々のフレームワークをテストする。
論文 参考訳(メタデータ) (2021-09-24T17:04:30Z) - Antagonistic Crowd Simulation Model Integrating Emotion Contagion and
Deep Reinforcement Learning [19.60008056384961]
複雑な感情が意思決定に影響を与えるメカニズム、特に突然の対立の環境では、まだ解明されていない。
感情的感染と深層強化学習を組み合わせた新たな対角的群集シミュレーションモデルを提案する。
その結果、感情は集団戦闘に重大な影響を与え、ポジティブな感情状態は戦闘に役立つことが証明されています。
論文 参考訳(メタデータ) (2021-04-29T01:18:13Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - Learning intuitive physics and one-shot imitation using
state-action-prediction self-organizing maps [0.0]
人間は探索と模倣によって学び、世界の因果モデルを構築し、両方を使って新しいタスクを柔軟に解決する。
このような特徴を生み出す単純だが効果的な教師なしモデルを提案する。
エージェントがアクティブな推論スタイルで柔軟に解決する、複数の関連するが異なる1ショットの模倣タスクに対して、その性能を示す。
論文 参考訳(メタデータ) (2020-07-03T12:29:11Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。