Fugu-MT 論文翻訳(概要): Reinforcement Learning Interventions on Boundedly Rational Human Agents in Frictionful Tasks

論文の概要: Reinforcement Learning Interventions on Boundedly Rational Human Agents in Frictionful Tasks

arxiv url: http://arxiv.org/abs/2401.14923v1
Date: Fri, 26 Jan 2024 14:59:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-29 14:53:01.516003
Title: Reinforcement Learning Interventions on Boundedly Rational Human Agents in Frictionful Tasks
Title（参考訳）: 摩擦課題における有界有理人エージェントの強化学習介入
Authors: Eura Nofshin, Siddharth Swaroop, Weiwei Pan, Susan Murphy, Finale Doshi-Velez
Abstract要約: 本稿では,AIエージェントがマルコフ決定プロセス(MDP)のパラメータに介入する枠組みを紹介する。私たちは、人間のモデルによるAI計画が、より複雑で地道な人間の幅広い政策に結びつくことを示しています。
参考スコア（独自算出の注目度）: 25.507656595628376
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Many important behavior changes are frictionful; they require individuals to expend effort over a long period with little immediate gratification. Here, an artificial intelligence (AI) agent can provide personalized interventions to help individuals stick to their goals. In these settings, the AI agent must personalize rapidly (before the individual disengages) and interpretably, to help us understand the behavioral interventions. In this paper, we introduce Behavior Model Reinforcement Learning (BMRL), a framework in which an AI agent intervenes on the parameters of a Markov Decision Process (MDP) belonging to a boundedly rational human agent. Our formulation of the human decision-maker as a planning agent allows us to attribute undesirable human policies (ones that do not lead to the goal) to their maladapted MDP parameters, such as an extremely low discount factor. Furthermore, we propose a class of tractable human models that captures fundamental behaviors in frictionful tasks. Introducing a notion of MDP equivalence specific to BMRL, we theoretically and empirically show that AI planning with our human models can lead to helpful policies on a wide range of more complex, ground-truth humans.
Abstract（参考訳）: 多くの重要な行動変化は摩擦に富み、個人はすぐに満足することなく長期間の努力を尽くさなければならない。ここでは、人工知能(AI)エージェントが個人が目標を達成するのを助けるためにパーソナライズされた介入を提供する。これらの設定では、AIエージェントは、行動介入を理解するのを助けるために、(個人が離脱する前に)迅速にパーソナライズし、解釈しなければなりません。本稿では,AIエージェントが有理な人間エージェントに属するマルコフ決定プロセス(MDP)のパラメータに介入する,行動モデル強化学習(BMRL)を紹介する。計画エージェントとしての人的意思決定者の定式化は、望ましくない人的政策(目標に導かないもの)を、非常に低い割引係数などの不適応なMDPパラメータに当てはめることができる。さらに, 摩擦に富む作業の基本的な動作を捉える, 牽引可能な人間モデルを提案する。 BMRLに特有のMDP同値の概念を導入し、理論的かつ実証的に、私たちの人間モデルによるAI計画が、より複雑で地味な幅広い人間に対して有用な政策をもたらすことを示します。

関連論文リスト

Model-Based Soft Maximization of Suitable Metrics of Long-Term Human Power [0.0]
本稿では、AIエージェントに人間に力を与えるよう強制することで、安全と幸福の両方を促進するという考え方を探求する。我々は、不等式とリスク・逆の人間の力の長期的集合を表す、パラメトリゾブルで分解可能な目的関数を設計する。
論文参考訳（メタデータ） (2025-07-31T20:56:43Z)
Robot-Gated Interactive Imitation Learning with Adaptive Intervention Mechanism [48.41735416075536]
インタラクティブ・イミテーション・ラーニング (Interactive Imitation Learning, IIL) は、エージェントが人間の介入を通じて望ましい行動を取得することを可能にする。本稿では,人間の実演を依頼する適応的基準を学習するロボットゲート型IILアルゴリズムであるAdaptive Intervention Mechanism (AIM)を提案する。
論文参考訳（メタデータ） (2025-06-10T18:43:26Z)
Agentic Knowledgeable Self-awareness [79.25908923383776]
KnowSelfはデータ中心のアプローチで、人間のような知識のある自己認識を持つエージェントを応用する。我々の実験により、KnowSelfは、外部知識を最小限に使用して、様々なタスクやモデルにおいて、様々な強力なベースラインを達成できることが実証された。
論文参考訳（メタデータ） (2025-04-04T16:03:38Z)
AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents [75.85554113398626]
我々は、既存のAIエージェントと将来のAIエージェントが、潜在的にプライベートな情報の処理をどの程度制限できるかを評価するために、AgentDAMと呼ばれるベンチマークを開発する。我々のベンチマークは、現実的なWebインタラクションシナリオをシミュレートし、既存のWebナビゲーションエージェントすべてに適用できる。
論文参考訳（メタデータ） (2025-03-12T19:30:31Z)
Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。 PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文参考訳（メタデータ） (2025-02-07T00:06:17Z)
MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [81.56607128684723]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。 MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文参考訳（メタデータ） (2024-06-24T01:51:09Z)
Approximating Human Models During Argumentation-based Dialogues [4.178382980763478]
説明可能なAI計画(XAIP)の主な課題は、モデルの和解である。本稿では,AIエージェントによる確率的人間モデル学習と更新を可能にする新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-28T23:22:18Z)
Attaining Human`s Desirable Outcomes in Human-AI Interaction via Structural Causal Games [34.34801907296059]
人間とAIの相互作用において、顕著なゴールは、AIエージェントの助けを借りて、人間が望ましい結果を達成することである。我々は、人間とAIの対話プロセスを形式化するために、構造因果ゲーム(SCG)と呼ばれる理論的枠組みを用いる。我々は、AIエージェントを操り、人間に望ましい結果を得るための、SCGに対する事前政治介入と呼ばれる戦略を導入する。
論文参考訳（メタデータ） (2024-05-26T14:42:49Z)
Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文参考訳（メタデータ） (2024-02-28T16:09:56Z)
The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされるまず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文参考訳（メタデータ） (2023-09-14T17:12:03Z)
Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-05-04T17:59:28Z)
Robust Planning for Human-Robot Joint Tasks with Explicit Reasoning on Human Mental State [2.8246074016493457]
我々は,人間ロボットチームが達成するための既知の目的を持った共有タスクを与えられる,人間に意識したタスク計画問題を考える。近年のアプローチでは、ロボットが両方のエージェント(共有された)タスクを計画する独立した合理的エージェントのチームとしてそれをモデル化している。本稿では,実行時の可観測性規約をモデル化し,使用するための新しいアプローチについて述べる。
論文参考訳（メタデータ） (2022-10-17T09:21:00Z)
Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文参考訳（メタデータ） (2022-05-30T18:40:28Z)
A Cognitive Framework for Delegation Between Error-Prone AI and Human Agents [0.0]
本研究では,認知にインスパイアされた行動モデルを用いて,人間エージェントとAIエージェントの両方の行動を予測する。予測された振る舞いは、仲介者の使用を通じて人間とAIエージェントの制御を委譲するために使用される。
論文参考訳（メタデータ） (2022-04-06T15:15:21Z)
Best-Response Bayesian Reinforcement Learning with Bayes-adaptive POMDPs for Centaurs [22.52332536886295]
本稿では,人間とAIの相互作用を逐次ゲームとして新たに定式化する。このケースでは、有界人間によるより良い意思決定を支援するというAIの問題は、ベイズ対応のPOMDPに還元される。我々は、機械が自身の限界と人間の助けを借りて改善する方法について議論する。
論文参考訳（メタデータ） (2022-04-03T21:00:51Z)
Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。 RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文参考訳（メタデータ） (2022-01-18T20:54:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。