論文の概要: Learning to Influence Human Behavior with Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.02265v1
- Date: Fri, 3 Mar 2023 23:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 20:42:40.349309
- Title: Learning to Influence Human Behavior with Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習による人間の行動に影響を与える学習
- Authors: Joey Hong, Anca Dragan, Sergey Levine
- Abstract要約: オフライン強化学習は、データセットにない戦略にもかかわらず、人間の行動に影響を与える戦略を学習し、改善することができることを示す。
さらに, オフラインRLは人間に適応する影響を学習し, 行動が変化しても長期の協調を達成できることを実証した。
- 参考スコア(独自算出の注目度): 81.17165388005498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the real world, some of the most complex settings for learned agents
involve interaction with humans, who often exhibit suboptimal, unpredictable
behavior due to sophisticated biases. Agents that interact with people in such
settings end up influencing the actions that these people take. Our goal in
this work is to enable agents to leverage that influence to improve the human's
performance in collaborative tasks, as the task unfolds. Unlike prior work, we
do not assume online training with people (which tends to be too expensive and
unsafe), nor access to a high fidelity simulator of the environment. Our idea
is that by taking a variety of previously observed human-human interaction data
and labeling it with the task reward, offline reinforcement learning (RL) can
learn to combine components of behavior, and uncover actions that lead to more
desirable human actions. First, we show that offline RL can learn strategies to
influence and improve human behavior, despite those strategies not appearing in
the dataset, by utilizing components of diverse, suboptimal interactions. In
addition, we demonstrate that offline RL can learn influence that adapts with
humans, thus achieving long-term coordination with them even when their
behavior changes. We evaluate our proposed method with real people in the
Overcooked collaborative benchmark domain, and demonstrate successful
improvement in human performance.
- Abstract(参考訳): 現実の世界では、学習エージェントの最も複雑な設定のいくつかは人間との相互作用を伴い、しばしば洗練されたバイアスのために最適で予測不能な振る舞いを示す。
このような設定で人と対話するエージェントは、これらの人々が取るアクションに影響を与える。
この作業の目標は、タスクが展開するにつれて、エージェントがその影響を活用して、協調作業における人間のパフォーマンスを改善することです。
以前の作業とは異なり、オンライントレーニング(高価で安全ではない傾向にある)や、環境の忠実度の高いシミュレータへのアクセスは想定していません。
我々の考えは、これまで観察されたさまざまな人間と人間のインタラクションデータをタスク報酬とラベル付けすることで、オフライン強化学習(RL)は、行動の構成要素を組み合わせて学習し、より望ましい人間の行動につながる行動を明らかにすることができる。
まず、オフラインRLは、データセットに現れない戦略にも拘わらず、多様な準最適相互作用の構成要素を利用することで、人間の行動に影響を与える戦略を学習できることを示す。
さらに, オフラインRLは人間に適応する影響を学習し, 行動が変化しても長期の協調を達成できることを実証した。
提案手法は, 共同ベンチマーク領域において, 実人を対象に評価を行い, 人的性能の向上を実証した。
関連論文リスト
- Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - Behavioural Cloning in VizDoom [1.4999444543328293]
本稿では,Imitation Learning (IL) による自律エージェントのゲーム「Doom 2」の学習方法について述べる。
また,Reinforcement Learning (RL) がカメラの動きと軌跡データを比較することで,人間性に対するILとの比較を行う。
論文 参考訳(メタデータ) (2024-01-08T16:15:43Z) - SACSoN: Scalable Autonomous Control for Social Navigation [62.59274275261392]
我々は、社会的に邪魔にならないナビゲーションのための政策の訓練方法を開発した。
この反事実的摂動を最小化することにより、共有空間における人間の自然な振る舞いを変えない方法でロボットに行動を促すことができる。
屋内移動ロボットが人間の傍観者と対話する大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2023-06-02T19:07:52Z) - Improving Multimodal Interactive Agents with Reinforcement Learning from
Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。
ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (2022-11-21T16:00:31Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。
学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-07T07:48:31Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z) - Imitating Interactive Intelligence [24.95842455898523]
仮想環境の簡略化を用いて、人間と自然に相互作用できる人工エージェントの設計方法を検討する。
人間とロバストに相互作用できるエージェントを構築するには、人間と対話しながらトレーニングするのが理想的です。
我々は,人間とエージェントエージェントの対話行動の相違を低減するために,逆強化学習の考え方を用いる。
論文 参考訳(メタデータ) (2020-12-10T13:55:47Z) - Learning Models of Individual Behavior in Chess [4.793072503820555]
チェスにおける個人行動の高精度な予測モデルを構築した。
私たちの研究は、AIシステムを個人の行動とよりよく一致させる方法を示しています。
論文 参考訳(メタデータ) (2020-08-23T18:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。