Fugu-MT 論文翻訳(概要): Learning to Influence Human Behavior with Offline Reinforcement Learning

論文の概要: Learning to Influence Human Behavior with Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2303.02265v4
Date: Fri, 27 Oct 2023 20:26:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 23:01:52.077391
Title: Learning to Influence Human Behavior with Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習による人間の行動に影響を与える学習
Authors: Joey Hong, Sergey Levine, Anca Dragan
Abstract要約: 人間の準最適性を捉える必要があるような環境での影響に焦点を当てる。人間によるオンライン実験は安全ではない可能性があり、環境の高忠実度シミュレータを作成することは現実的ではないことが多い。オフライン強化学習は、観察された人間・人間の行動の要素を拡張し、組み合わせることで、人間に効果的に影響を及ぼすことができることを示す。
参考スコア（独自算出の注目度）: 70.7884839812069
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When interacting with people, AI agents do not just influence the state of the world -- they also influence the actions people take in response to the agent, and even their underlying intentions and strategies. Accounting for and leveraging this influence has mostly been studied in settings where it is sufficient to assume that human behavior is near-optimal: competitive games, or general-sum settings like autonomous driving alongside human drivers. Instead, we focus on influence in settings where there is a need to capture human suboptimality. For instance, imagine a collaborative task in which, due either to cognitive biases or lack of information, people do not perform very well -- how could an agent influence them towards more optimal behavior? Assuming near-optimal human behavior will not work here, and so the agent needs to learn from real human data. But experimenting online with humans is potentially unsafe, and creating a high-fidelity simulator of the environment is often impractical. Hence, we focus on learning from an offline dataset of human-human interactions. Our observation is that offline reinforcement learning (RL) can learn to effectively influence suboptimal humans by extending and combining elements of observed human-human behavior. We demonstrate that offline RL can solve two challenges with effective influence. First, we show that by learning from a dataset of suboptimal human-human interaction on a variety of tasks -- none of which contains examples of successful influence -- an agent can learn influence strategies to steer humans towards better performance even on new tasks. Second, we show that by also modeling and conditioning on human behavior, offline RL can learn to affect not just the human's actions but also their underlying strategy, and adapt to changes in their strategy.
Abstract（参考訳）: 人と対話する場合、AIエージェントは世界の状態に影響を与えるだけでなく、エージェントに反応する人々の行動や、その根底にある意図や戦略にも影響を及ぼす。この影響を考慮し、活用することは、人間の行動がほぼ最適であると仮定できるような環境で、主に研究されてきた。代わりに、人間のサブ最適化を捉える必要のある設定での影響に焦点を当てます。例えば、認知バイアスや情報の欠如によって、人々があまりうまく機能しないような協調的なタスクを想像してください。ほぼ最適な人間の行動はここでは機能しないので、エージェントは実際の人間のデータから学ぶ必要がある。しかし、人間とオンラインで実験することは、潜在的に危険であり、環境の忠実度の高いシミュレーターを作成することは、しばしば非現実的です。したがって、人間と人間の相互作用のオフラインデータセットから学ぶことに集中する。我々の観察では、オフライン強化学習(RL)は、観察された人間-人間の行動の要素を拡張し、組み合わせることで、最適な人間に効果的に影響を与えることができる。オフラインRLは2つの課題を効果的に解決できることを示した。まず,様々なタスクにおける人間と人間とサブ最適インタラクションのデータセットから学習することで,エージェントは,新たなタスクにおいても人間をよりよいパフォーマンスへと導くための影響戦略を学習できることを示す。第二に、人間の行動のモデリングと条件付けにより、オフラインRLは人間の行動だけでなく、その基盤となる戦略にも影響を与え、その戦略の変化に適応できることを示す。

関連論文リスト

AI persuading AI vs AI persuading Humans: LLMs' Differential Effectiveness in Promoting Pro-Environmental Behavior [70.24245082578167]
環境保護行動(PEB)は気候変動に対処するために不可欠であるが、意識を意図や行動に変えることはいまだ明白である。大規模言語モデル(LLM)をPEBを促進するツールとして検討し,その影響を3,200人の参加者で比較した。人工的およびシミュレートされたエージェントは、介入後のEBスタンスに大きく影響し、ヒトの反応はほとんど変化しない。
論文参考訳（メタデータ） (2025-03-03T21:40:55Z)
Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-07T21:37:51Z)
Behavioural Cloning in VizDoom [1.4999444543328293]
本稿では,Imitation Learning (IL) による自律エージェントのゲーム「Doom 2」の学習方法について述べる。また,Reinforcement Learning (RL) がカメラの動きと軌跡データを比較することで,人間性に対するILとの比較を行う。
論文参考訳（メタデータ） (2024-01-08T16:15:43Z)
SACSoN: Scalable Autonomous Control for Social Navigation [62.59274275261392]
我々は、社会的に邪魔にならないナビゲーションのための政策の訓練方法を開発した。この反事実的摂動を最小化することにより、共有空間における人間の自然な振る舞いを変えない方法でロボットに行動を促すことができる。屋内移動ロボットが人間の傍観者と対話する大規模なデータセットを収集する。
論文参考訳（メタデータ） (2023-06-02T19:07:52Z)
Improving Multimodal Interactive Agents with Reinforcement Learning from Human Feedback [16.268581985382433]
人工知能の重要な目標は、人間と自然に対話し、フィードバックから学ぶことができるエージェントを作ることである。ここでは、人間のフィードバックから強化学習を用いて、シミュレーションされたエンボディエージェントを改善する方法を紹介する。
論文参考訳（メタデータ） (2022-11-21T16:00:31Z)
Human Decision Makings on Curriculum Reinforcement Learning with Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文参考訳（メタデータ） (2022-08-04T23:53:51Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)
Learning Human Rewards by Inferring Their Latent Intelligence Levels in Multi-Agent Games: A Theory-of-Mind Approach with Application to Driving Data [18.750834997334664]
我々は、人間は有理論的であり、他人の意思決定過程を推論する際に異なる知能レベルを持っていると論じる。学習中の人間の潜在知能レベルを推論する,新しいマルチエージェント逆強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-03-07T07:48:31Z)
AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文参考訳（メタデータ） (2021-02-24T14:58:23Z)
Imitating Interactive Intelligence [24.95842455898523]
仮想環境の簡略化を用いて、人間と自然に相互作用できる人工エージェントの設計方法を検討する。人間とロバストに相互作用できるエージェントを構築するには、人間と対話しながらトレーニングするのが理想的です。我々は,人間とエージェントエージェントの対話行動の相違を低減するために,逆強化学習の考え方を用いる。
論文参考訳（メタデータ） (2020-12-10T13:55:47Z)
Learning Models of Individual Behavior in Chess [4.793072503820555]
チェスにおける個人行動の高精度な予測モデルを構築した。私たちの研究は、AIシステムを個人の行動とよりよく一致させる方法を示しています。
論文参考訳（メタデータ） (2020-08-23T18:24:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。