論文の概要: Learning to Influence Human Behavior with Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.02265v4
- Date: Fri, 27 Oct 2023 20:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 23:01:52.077391
- Title: Learning to Influence Human Behavior with Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習による人間の行動に影響を与える学習
- Authors: Joey Hong, Sergey Levine, Anca Dragan
- Abstract要約: 人間の準最適性を捉える必要があるような環境での影響に焦点を当てる。
人間によるオンライン実験は安全ではない可能性があり、環境の高忠実度シミュレータを作成することは現実的ではないことが多い。
オフライン強化学習は、観察された人間・人間の行動の要素を拡張し、組み合わせることで、人間に効果的に影響を及ぼすことができることを示す。
- 参考スコア(独自算出の注目度): 70.7884839812069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When interacting with people, AI agents do not just influence the state of
the world -- they also influence the actions people take in response to the
agent, and even their underlying intentions and strategies. Accounting for and
leveraging this influence has mostly been studied in settings where it is
sufficient to assume that human behavior is near-optimal: competitive games, or
general-sum settings like autonomous driving alongside human drivers. Instead,
we focus on influence in settings where there is a need to capture human
suboptimality. For instance, imagine a collaborative task in which, due either
to cognitive biases or lack of information, people do not perform very well --
how could an agent influence them towards more optimal behavior? Assuming
near-optimal human behavior will not work here, and so the agent needs to learn
from real human data. But experimenting online with humans is potentially
unsafe, and creating a high-fidelity simulator of the environment is often
impractical. Hence, we focus on learning from an offline dataset of human-human
interactions. Our observation is that offline reinforcement learning (RL) can
learn to effectively influence suboptimal humans by extending and combining
elements of observed human-human behavior. We demonstrate that offline RL can
solve two challenges with effective influence. First, we show that by learning
from a dataset of suboptimal human-human interaction on a variety of tasks --
none of which contains examples of successful influence -- an agent can learn
influence strategies to steer humans towards better performance even on new
tasks. Second, we show that by also modeling and conditioning on human
behavior, offline RL can learn to affect not just the human's actions but also
their underlying strategy, and adapt to changes in their strategy.
- Abstract(参考訳): 人と対話する場合、AIエージェントは世界の状態に影響を与えるだけでなく、エージェントに反応する人々の行動や、その根底にある意図や戦略にも影響を及ぼす。
この影響を考慮し、活用することは、人間の行動がほぼ最適であると仮定できるような環境で、主に研究されてきた。
代わりに、人間のサブ最適化を捉える必要のある設定での影響に焦点を当てます。
例えば、認知バイアスや情報の欠如によって、人々があまりうまく機能しないような協調的なタスクを想像してください。
ほぼ最適な人間の行動はここでは機能しないので、エージェントは実際の人間のデータから学ぶ必要がある。
しかし、人間とオンラインで実験することは、潜在的に危険であり、環境の忠実度の高いシミュレーターを作成することは、しばしば非現実的です。
したがって、人間と人間の相互作用のオフラインデータセットから学ぶことに集中する。
我々の観察では、オフライン強化学習(RL)は、観察された人間-人間の行動の要素を拡張し、組み合わせることで、最適な人間に効果的に影響を与えることができる。
オフラインRLは2つの課題を効果的に解決できることを示した。
まず,様々なタスクにおける人間と人間とサブ最適インタラクションのデータセットから学習することで,エージェントは,新たなタスクにおいても人間をよりよいパフォーマンスへと導くための影響戦略を学習できることを示す。
第二に、人間の行動のモデリングと条件付けにより、オフラインRLは人間の行動だけでなく、その基盤となる戦略にも影響を与え、その戦略の変化に適応できることを示す。
関連論文リスト
- Behavioural Cloning in VizDoom [1.4999444543328293]
本稿では,Imitation Learning (IL) による自律エージェントのゲーム「Doom 2」の学習方法について述べる。
また,Reinforcement Learning (RL) がカメラの動きと軌跡データを比較することで,人間性に対するILとの比較を行う。
論文 参考訳(メタデータ) (2024-01-08T16:15:43Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - SACSoN: Scalable Autonomous Control for Social Navigation [62.59274275261392]
我々は、社会的に邪魔にならないナビゲーションのための政策の訓練方法を開発した。
この反事実的摂動を最小化することにより、共有空間における人間の自然な振る舞いを変えない方法でロボットに行動を促すことができる。
屋内移動ロボットが人間の傍観者と対話する大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2023-06-02T19:07:52Z) - Improving Multimodal Interactive Agents with Reinforcement Learning from
Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。
ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文 参考訳(メタデータ) (2022-11-21T16:00:31Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning Human Rewards by Inferring Their Latent Intelligence Levels in
Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。
学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-07T07:48:31Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z) - Imitating Interactive Intelligence [24.95842455898523]
仮想環境の簡略化を用いて、人間と自然に相互作用できる人工エージェントの設計方法を検討する。
人間とロバストに相互作用できるエージェントを構築するには、人間と対話しながらトレーニングするのが理想的です。
我々は,人間とエージェントエージェントの対話行動の相違を低減するために,逆強化学習の考え方を用いる。
論文 参考訳(メタデータ) (2020-12-10T13:55:47Z) - Learning Models of Individual Behavior in Chess [4.793072503820555]
チェスにおける個人行動の高精度な予測モデルを構築した。
私たちの研究は、AIシステムを個人の行動とよりよく一致させる方法を示しています。
論文 参考訳(メタデータ) (2020-08-23T18:24:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。