論文の概要: Unified Models of Human Behavioral Agents in Bandits, Contextual Bandits
and RL
- arxiv url: http://arxiv.org/abs/2005.04544v5
- Date: Mon, 27 Dec 2021 10:39:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 01:20:08.047238
- Title: Unified Models of Human Behavioral Agents in Bandits, Contextual Bandits
and RL
- Title(参考訳): バンディット・コンテクストバンディット・rlにおける行動エージェントの統一モデル
- Authors: Baihan Lin, Guillermo Cecchi, Djallel Bouneffouf, Jenna Reinen, Irina
Rish
- Abstract要約: 逐次的意思決定のためのより汎用的で柔軟なパラメトリック・フレームワークを提案する。
多くの精神疾患の既往の報酬処理異常にインスパイアされ、臨床にインスパイアされたエージェントは興味深い行動軌跡を示した。
- 参考スコア(独自算出の注目度): 28.38826379640553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial behavioral agents are often evaluated based on their consistent
behaviors and performance to take sequential actions in an environment to
maximize some notion of cumulative reward. However, human decision making in
real life usually involves different strategies and behavioral trajectories
that lead to the same empirical outcome. Motivated by clinical literature of a
wide range of neurological and psychiatric disorders, we propose here a more
general and flexible parametric framework for sequential decision making that
involves a two-stream reward processing mechanism. We demonstrated that this
framework is flexible and unified enough to incorporate a family of problems
spanning multi-armed bandits (MAB), contextual bandits (CB) and reinforcement
learning (RL), which decompose the sequential decision making process in
different levels. Inspired by the known reward processing abnormalities of many
mental disorders, our clinically-inspired agents demonstrated interesting
behavioral trajectories and comparable performance on simulated tasks with
particular reward distributions, a real-world dataset capturing human
decision-making in gambling tasks, and the PacMan game across different reward
stationarities in a lifelong learning setting.
- Abstract(参考訳): 人工行動エージェントはしばしば、その一貫した行動とパフォーマンスに基づいて評価され、累積報酬の概念を最大化するために、環境におけるシーケンシャルな行動を取る。
しかし、現実の人間の意思決定は、通常異なる戦略と行動軌道を伴い、同じ経験的な結果をもたらす。
本稿では, 幅広い神経・精神疾患の臨床文献に動機づけられ, 2ストリーム報酬処理機構を含む逐次意思決定のためのより汎用的で柔軟なパラメトリックフレームワークを提案する。
我々は,このフレームワークが柔軟で統一されていることを実証し,マルチアームバンディット(MAB),コンテキストバンディット(CB),強化学習(RL)にまたがる一連の問題を,異なるレベルで分解できることを示した。
多くの精神疾患の報酬処理異常に触発されて、臨床に着想を得たエージェントは、特定の報酬分布を持つ模擬タスクにおける興味深い行動軌跡と同等のパフォーマンス、ギャンブルタスクにおける人間の意思決定をキャプチャする実世界データセット、生涯にわたる学習環境における様々な報酬定常性におけるパックマンゲームを示した。
関連論文リスト
- Appraisal-Guided Proximal Policy Optimization: Modeling Psychological Disorders in Dynamic Grid World [0.0]
強化学習(RL)エージェントを用いた心理障害のモデル化手法を開発した。
心理障害をシミュレートし,エージェントの行動を制御するための報酬形成戦略を多数検討した。
修正されたPPOアルゴリズムの様々な構成の比較により、不安障害とOCD(Obsessive-Compulsive Disorder)のようなエージェントの振る舞いをシミュレートする変異が同定された。
論文 参考訳(メタデータ) (2024-07-29T19:19:54Z) - HMM for Discovering Decision-Making Dynamics Using Reinforcement Learning Experiments [5.857093069873734]
報酬処理異常がMDDの行動マーカーとなる可能性が示唆された。
近年の研究では、単一のRLモデルのみに基づく報酬学習の特徴付けが不十分であることが示唆されている。
本稿では報酬に基づく意思決定を解析するための新しいRL-HMMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-25T04:03:32Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Multi-intention Inverse Q-learning for Interpretable Behavior Representation [12.135423420992334]
逆強化学習(IRL)法は、複雑な行動の基礎となる動物の意図を再構築するのに役立つことが証明されている。
階層型逆Q-ラーニング(HIQL)アルゴリズムのクラスを紹介する。
シミュレーション実験と実際の動物行動データセットにHIQLを適用することで、我々のアプローチは行動予測の現在のベンチマークよりも優れています。
論文 参考訳(メタデータ) (2023-11-23T09:27:08Z) - Discovering Individual Rewards in Collective Behavior through Inverse
Multi-Agent Reinforcement Learning [3.4437947384641032]
政外逆マルチエージェント強化学習アルゴリズム(IMARL)を導入する。
実演を活用することで,アルゴリズムは報酬関数を自動的に発見し,エージェントの効果的なポリシーを学習する。
提案するIMARLアルゴリズムは, 構成成分の観点から, 集合力学を理解するための重要なステップである。
論文 参考訳(メタデータ) (2023-05-17T20:07:30Z) - Learnable Behavior Control: Breaking Atari Human World Records via
Sample-Efficient Behavior Selection [56.87650511573298]
本稿では,LBC(Learable Behavioral Control)と呼ばれるフレームワークを提案する。
我々のエージェントは10077.52%の平均正規化スコアを達成し、1Bのトレーニングフレーム内で24人の世界記録を突破した。
論文 参考訳(メタデータ) (2023-05-09T08:00:23Z) - Learning Complex Spatial Behaviours in ABM: An Experimental
Observational Study [0.0]
本稿では,創発的エージェント行動の生成にReinforcement Learningを適用する方法について検討する。
一連のシミュレーションを行ない, エージェントが実世界の知的適応行動の特性を示す方法として, プロクサマルポリシー最適化アルゴリズムを用いて訓練されたことを実証した。
論文 参考訳(メタデータ) (2022-01-04T11:56:11Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Object-Aware Regularization for Addressing Causal Confusion in Imitation
Learning [131.1852444489217]
本稿では,オブジェクト認識方式で模倣ポリシーを標準化する手法として,オブジェクト認識型RegularizatiOn(OREO)を提案する。
我々の主な考えは、政策が専門家の行動と強く相関するニュアンス変数を悪用することを防ぐために、政策が全ての意味オブジェクトに均一に出席することを奨励することである。
論文 参考訳(メタデータ) (2021-10-27T01:56:23Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。