論文の概要: Reinforcement Learning Interventions on Boundedly Rational Human Agents
in Frictionful Tasks
- arxiv url: http://arxiv.org/abs/2401.14923v1
- Date: Fri, 26 Jan 2024 14:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 14:53:01.516003
- Title: Reinforcement Learning Interventions on Boundedly Rational Human Agents
in Frictionful Tasks
- Title(参考訳): 摩擦課題における有界有理人エージェントの強化学習介入
- Authors: Eura Nofshin, Siddharth Swaroop, Weiwei Pan, Susan Murphy, Finale
Doshi-Velez
- Abstract要約: 本稿では,AIエージェントがマルコフ決定プロセス(MDP)のパラメータに介入する枠組みを紹介する。
私たちは、人間のモデルによるAI計画が、より複雑で地道な人間の幅広い政策に結びつくことを示しています。
- 参考スコア(独自算出の注目度): 25.507656595628376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many important behavior changes are frictionful; they require individuals to
expend effort over a long period with little immediate gratification. Here, an
artificial intelligence (AI) agent can provide personalized interventions to
help individuals stick to their goals. In these settings, the AI agent must
personalize rapidly (before the individual disengages) and interpretably, to
help us understand the behavioral interventions. In this paper, we introduce
Behavior Model Reinforcement Learning (BMRL), a framework in which an AI agent
intervenes on the parameters of a Markov Decision Process (MDP) belonging to a
boundedly rational human agent. Our formulation of the human decision-maker as
a planning agent allows us to attribute undesirable human policies (ones that
do not lead to the goal) to their maladapted MDP parameters, such as an
extremely low discount factor. Furthermore, we propose a class of tractable
human models that captures fundamental behaviors in frictionful tasks.
Introducing a notion of MDP equivalence specific to BMRL, we theoretically and
empirically show that AI planning with our human models can lead to helpful
policies on a wide range of more complex, ground-truth humans.
- Abstract(参考訳): 多くの重要な行動変化は摩擦に富み、個人はすぐに満足することなく長期間の努力を尽くさなければならない。
ここでは、人工知能(AI)エージェントが個人が目標を達成するのを助けるためにパーソナライズされた介入を提供する。
これらの設定では、AIエージェントは、行動介入を理解するのを助けるために、(個人が離脱する前に)迅速にパーソナライズし、解釈しなければなりません。
本稿では,AIエージェントが有理な人間エージェントに属するマルコフ決定プロセス(MDP)のパラメータに介入する,行動モデル強化学習(BMRL)を紹介する。
計画エージェントとしての人的意思決定者の定式化は、望ましくない人的政策(目標に導かないもの)を、非常に低い割引係数などの不適応なMDPパラメータに当てはめることができる。
さらに, 摩擦に富む作業の基本的な動作を捉える, 牽引可能な人間モデルを提案する。
BMRLに特有のMDP同値の概念を導入し、理論的かつ実証的に、私たちの人間モデルによるAI計画が、より複雑で地味な幅広い人間に対して有用な政策をもたらすことを示します。
関連論文リスト
- Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。
PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。
このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文 参考訳(メタデータ) (2025-02-07T00:06:17Z) - MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [81.56607128684723]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - Approximating Human Models During Argumentation-based Dialogues [4.178382980763478]
説明可能なAI計画(XAIP)の主な課題は、モデルの和解である。
本稿では,AIエージェントによる確率的人間モデル学習と更新を可能にする新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-28T23:22:18Z) - Attaining Human`s Desirable Outcomes in Human-AI Interaction via Structural Causal Games [34.34801907296059]
人間とAIの相互作用において、顕著なゴールは、AIエージェントの助けを借りて、人間が望ましい結果を達成することである。
我々は、人間とAIの対話プロセスを形式化するために、構造因果ゲーム(SCG)と呼ばれる理論的枠組みを用いる。
我々は、AIエージェントを操り、人間に望ましい結果を得るための、SCGに対する事前政治介入と呼ばれる戦略を導入する。
論文 参考訳(メタデータ) (2024-05-26T14:42:49Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Robust Planning for Human-Robot Joint Tasks with Explicit Reasoning on
Human Mental State [2.8246074016493457]
我々は,人間ロボットチームが達成するための既知の目的を持った共有タスクを与えられる,人間に意識したタスク計画問題を考える。
近年のアプローチでは、ロボットが両方のエージェント(共有された)タスクを計画する独立した合理的エージェントのチームとしてそれをモデル化している。
本稿では,実行時の可観測性規約をモデル化し,使用するための新しいアプローチについて述べる。
論文 参考訳(メタデータ) (2022-10-17T09:21:00Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - A Cognitive Framework for Delegation Between Error-Prone AI and Human
Agents [0.0]
本研究では,認知にインスパイアされた行動モデルを用いて,人間エージェントとAIエージェントの両方の行動を予測する。
予測された振る舞いは、仲介者の使用を通じて人間とAIエージェントの制御を委譲するために使用される。
論文 参考訳(メタデータ) (2022-04-06T15:15:21Z) - Best-Response Bayesian Reinforcement Learning with Bayes-adaptive POMDPs
for Centaurs [22.52332536886295]
本稿では,人間とAIの相互作用を逐次ゲームとして新たに定式化する。
このケースでは、有界人間によるより良い意思決定を支援するというAIの問題は、ベイズ対応のPOMDPに還元される。
我々は、機械が自身の限界と人間の助けを借りて改善する方法について議論する。
論文 参考訳(メタデータ) (2022-04-03T21:00:51Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。