論文の概要: Reinforcement Learning Beyond Expectation
- arxiv url: http://arxiv.org/abs/2104.00540v1
- Date: Mon, 29 Mar 2021 20:35:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-03 11:30:29.637447
- Title: Reinforcement Learning Beyond Expectation
- Title(参考訳): 期待を超えた強化学習
- Authors: Bhaskar Ramasubramanian, Luyao Niu, Andrew Clark, Radha Poovendran
- Abstract要約: 累積予測理論 (cumulative prospect theory, cpt) は、人間が利益と損失を異なる視点で見る傾向をモデル化することが実証的に示されているパラダイムである。
本稿では,自律エージェントが未知の環境で行動を学ぶ必要がある環境について考察する。
エージェントに人間のユーザーの行動を密接に模倣する能力を与えるために、我々はCPTベースのコストを最適化する。
- 参考スコア(独自算出の注目度): 11.428014000851535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The inputs and preferences of human users are important considerations in
situations where these users interact with autonomous cyber or cyber-physical
systems. In these scenarios, one is often interested in aligning behaviors of
the system with the preferences of one or more human users. Cumulative prospect
theory (CPT) is a paradigm that has been empirically shown to model a tendency
of humans to view gains and losses differently. In this paper, we consider a
setting where an autonomous agent has to learn behaviors in an unknown
environment. In traditional reinforcement learning, these behaviors are learned
through repeated interactions with the environment by optimizing an expected
utility. In order to endow the agent with the ability to closely mimic the
behavior of human users, we optimize a CPT-based cost. We introduce the notion
of the CPT-value of an action taken in a state, and establish the convergence
of an iterative dynamic programming-based approach to estimate this quantity.
We develop two algorithms to enable agents to learn policies to optimize the
CPT-vale, and evaluate these algorithms in environments where a target state
has to be reached while avoiding obstacles. We demonstrate that behaviors of
the agent learned using these algorithms are better aligned with that of a
human user who might be placed in the same environment, and is significantly
improved over a baseline that optimizes an expected utility.
- Abstract(参考訳): ユーザの入力と好みは、これらのユーザが自律的なサイバーシステムやサイバーフィジカルシステムと対話する状況において重要な考慮事項である。
これらのシナリオでは、システムの振る舞いを1人以上のユーザの好みに合わせることにしばしば関心がある。
累積予測理論 (cumulative prospect theory, cpt) は、人間が利益と損失を異なる視点で見る傾向をモデル化することが実証的に示されているパラダイムである。
本稿では,自律エージェントが未知の環境で行動を学ぶ必要がある環境について考察する。
従来の強化学習では、これらの行動は期待されたユーティリティを最適化することで環境との繰り返しの相互作用を通じて学習される。
エージェントに人間の動作を忠実に模倣する能力を与えるため、我々はCPTベースのコストを最適化する。
本稿では,ある状態における行動のCPT値の概念を導入し,この量を推定するために反復的動的プログラミングに基づくアプローチの収束を確立する。
エージェントがCPT値を最適化するためのポリシーを学習するための2つのアルゴリズムを開発し、障害物を避けながら目標状態に到達する必要がある環境でこれらのアルゴリズムを評価する。
これらのアルゴリズムを用いて学習したエージェントの挙動は、同じ環境に置かれるかもしれない人間の行動とよく一致し、期待されるユーティリティを最適化するベースラインよりも大幅に改善されていることを示す。
関連論文リスト
- DEEPER Insight into Your User: Directed Persona Refinement for Dynamic Persona Modeling [38.18345641589625]
本稿では,動的ペルソナモデリングのための新しいアプローチであるDEEPERを提案する。
10ドメインにわたる4800人のユーザによる動的ペルソナモデリングの実験は、DEEPERの優れたペルソナ最適化能力を強調している。
論文 参考訳(メタデータ) (2025-02-16T11:02:37Z) - Towards Recommender Systems LLMs Playground (RecSysLLMsP): Exploring Polarization and Engagement in Simulated Social Networks [6.813586966214873]
本稿では,Large Language Models (LLMs) を利用した新しいシミュレーションフレームワークを提案する。
説明的、静的、動的属性を持つ多様なAIエージェントを作成することで、3つのシナリオにわたって自律的な振る舞いを評価する。
本研究は, 社会的分極を緩和しつつ, ユーザの満足度を高めるためのレコメンデータシステム設計において, 慎重なバランスの必要性を強調するものである。
論文 参考訳(メタデータ) (2025-01-29T14:23:34Z) - When Online Algorithms Influence the Environment: A Dynamical Systems Analysis of the Unintended Consequences [5.4209739979186295]
オンラインアルゴリズムが学習環境に与える影響を分析する。
提案アルゴリズムは,このミスマッチの存在下で個体群の嗜好を学習できる場合,利用者の嗜好に類似性をもたらすことを示す。
論文 参考訳(メタデータ) (2024-11-21T06:47:53Z) - Quantifying User Coherence: A Unified Framework for Cross-Domain Recommendation Analysis [69.37718774071793]
本稿では,レコメンデーションシステムを理解するための新しい情報理論手法を提案する。
9つのデータセットで7つのレコメンデーションアルゴリズムを評価し、測定値と標準的なパフォーマンス指標の関係を明らかにする。
論文 参考訳(メタデータ) (2024-10-03T13:02:07Z) - Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。
本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。
マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:58:22Z) - Interactive Hyperparameter Optimization in Multi-Objective Problems via
Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。
ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文 参考訳(メタデータ) (2023-09-07T09:22:05Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Privacy-Preserving Reinforcement Learning Beyond Expectation [6.495883501989546]
自動運転車のような機械学習アルゴリズムを備えたサイバーおよびサイバー物理システムは、環境を人間と共有する。
システム(またはエージェント)の振る舞いを1人以上のユーザの好みに合わせることが重要である。
エージェントが未知の環境で行動を学ぶ必要がある場合を考える。
論文 参考訳(メタデータ) (2022-03-18T21:28:29Z) - Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。
本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。
提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T13:25:13Z) - Value Driven Representation for Human-in-the-Loop Reinforcement Learning [33.79501890330252]
我々は,システム設計者が,強化学習エージェントが使用する観測空間を定義するために,センサセットや特徴セットを選択する方法のアルゴリズム的基礎に焦点をあてる。
本稿では、強化学習エージェントの観測空間を反復的かつ適応的に拡張するアルゴリズム、値駆動表現(VDR)を提案する。
シミュレーションされた人間を用いた標準RLベンチマークによる手法の性能評価を行い、従来のベースラインよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2020-04-02T18:45:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。