論文の概要: Personal Comfort Estimation in Partial Observable Environment using
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.00971v2
- Date: Fri, 3 Dec 2021 01:42:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 14:02:30.927076
- Title: Personal Comfort Estimation in Partial Observable Environment using
Reinforcement Learning
- Title(参考訳): 強化学習を用いた部分観測可能環境の快適性評価
- Authors: Shashi Suman, Ali Etemad, Francois Rivest
- Abstract要約: ほとんどのスマートホームは、ユーザーの熱的嗜好を表す均一なモデルを学ぶ。
ユーザーごとに異なる熱感覚を持つことは、スマートホームが各利用者の好みを個別に学習する上での課題となる。
一つの最適なポリシーを持つスマートホームは、異なる好みを持つ新しいユーザーがホームに統合された場合、快適に提供できない可能性がある。
- 参考スコア(独自算出の注目度): 8.422257363944295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The technology used in smart homes have improved to learn the user
preferences from feedbacks in order to provide convenience to the user in the
home environment. Most smart homes learn a uniform model to represent the
thermal preference of user which generally fails when the pool of occupants
includes people having different age, gender, and location. Having different
thermal sensation for each user poses a challenge for the smart homes to learn
a personalized preference for each occupant without forgetting the policy of
others. A smart home with single optimal policy may fail to provide comfort
when a new user with different preference is integrated in the home. In this
paper, we propose POSHS, a Bayesian Reinforcement learning algorithm that can
approximate the current occupant state in a partial observable environment
using its thermal preference and then decide if its a new occupant or belongs
to the pool of previously observed users. We then compare POSHS algorithm with
an LSTM based algorithm to learn and estimate the current state of the occupant
while also taking optimal actions to reduce the timesteps required to set the
preferences. We perform these experiments with upto 5 simulated human models
each based on hierarchical reinforcement learning. The results show that POSHS
can approximate the current user state just from its temperature and humidity
preference and also reduce the number of time-steps required to set optimal
temperature and humidity by the human model in the presence of the smart home.
- Abstract(参考訳): スマートホームで使用される技術は、家庭環境でユーザに利便性を提供するために、フィードバックからユーザの好みを学習するために改善されている。
ほとんどのスマートホームは、年齢、性別、場所の異なる人々を含む住民のプールが一般的に失敗するユーザーの熱的嗜好を表す均一なモデルを学ぶ。
ユーザがそれぞれ異なる熱感を持つことは、スマートホームにとって、他の人のポリシーを忘れずに、各居住者のパーソナライズされた好みを学ぶための課題となる。
単一の最適なポリシーを持つスマートホームは、異なる好みのユーザーが家庭に統合された場合、快適性を提供しない可能性がある。
本稿では,ベイズ強化学習アルゴリズムであるPOSHSを提案する。このアルゴリズムは,その熱的嗜好を利用して,その部分観測可能な環境における現在の占有状態を近似し,新しい占有者か,あるいは以前に観測された利用者のプールに属するかを決定する。
次に, POSHSアルゴリズムとLSTMに基づくアルゴリズムを比較し, 利用者の現在の状態を学習し, 推定するとともに, 選好設定に必要な時間ステップを削減するために最適な行動を取る。
これらの実験は,階層的強化学習に基づいて,最大5個のシミュレーション人体モデルを用いて実施する。
その結果, POSHSは温度と湿度の嗜好から現在のユーザ状態を近似することができ, スマートホームの存在下での人体モデルによる最適な温度と湿度の設定に必要な時間ステップを削減できることがわかった。
関連論文リスト
- ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - DegustaBot: Zero-Shot Visual Preference Estimation for Personalized Multi-Object Rearrangement [53.86523017756224]
本稿では,視覚的嗜好学習のためのアルゴリズムであるDegustaBotを提案する。
我々は、シミュレーション表設定タスクにおいて、自然主義的個人的嗜好の大規模なデータセットを収集する。
私たちのモデルの予測の50%は、少なくとも20%の人々に受け入れられる可能性が高いことが分かりました。
論文 参考訳(メタデータ) (2024-07-11T21:28:02Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Eliciting User Preferences for Personalized Multi-Objective Decision
Making through Comparative Feedback [76.7007545844273]
目的に対して異なるユーザの好みに対応する多目的意思決定フレームワークを提案する。
我々のモデルは、ベクトル値の報酬関数を持つマルコフ決定プロセスで構成され、各ユーザが未知の選好ベクトルを持つ。
少数の比較クエリを用いて,ユーザに対してほぼ最適なポリシを求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-07T23:58:19Z) - Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。
しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。
したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文 参考訳(メタデータ) (2022-11-17T19:00:24Z) - RESUS: Warm-Up Cold Users via Meta-Learning Residual User Preferences in
CTR Prediction [14.807495564177252]
コールドユーザーに対するCTR(Click-Through Rate)予測は、レコメンデーションシステムにおいて難しい課題である。
本稿では,グローバルな嗜好知識の学習を,個々のユーザの残留嗜好の学習から切り離す,RESUSという新しい,効率的なアプローチを提案する。
本手法は, コールドユーザに対するCTR予測精度の向上に有効であり, 各種最先端手法と比較して有効である。
論文 参考訳(メタデータ) (2022-10-28T11:57:58Z) - Cohort comfort models -- Using occupants' similarity to predict personal
thermal preference with less data [0.0]
コホート・コンフォート・モデル(Cohort Comfort Models)は、新入生者が彼らの熱環境をどのように知覚するかを予測する新しいフレームワークである。
我々のフレームワークは、物理特性やワンタイムオンボーディングサーベイのような、利用可能な背景情報を活用することができる。
論文 参考訳(メタデータ) (2022-08-05T10:21:03Z) - Modeling Dynamic User Preference via Dictionary Learning for Sequential
Recommendation [133.8758914874593]
ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。
浅いものも深いものも含む、既存のレコメンデーションアルゴリズムの多くは、このようなダイナミクスを独立してモデル化することが多い。
本稿では、ユーザのシーケンシャルな振る舞いを、ユーザ好みの潜伏した空間に埋め込むことの問題について考察する。
論文 参考訳(メタデータ) (2022-04-02T03:23:46Z) - Targeting occupant feedback using digital twins: Adaptive
spatial-temporal thermal preference sampling to optimize personal comfort
models [0.0]
本稿では,スマートウォッチを用いたデータサンプリングを最適化するシナリオベース(仮想実験)手法について概説する。
提案したBuild2Vec法は,空間に基づくサンプリング法や正方形グリッドに基づくサンプリング法よりも,全体のサンプリング品質が18~23%高い。
論文 参考訳(メタデータ) (2022-02-22T07:38:23Z) - Personal thermal comfort models using digital twins: Preference
prediction with BIM-extracted spatial-temporal proximity data from Build2Vec [0.0]
本研究は,室内環境の嗜好を予測するために,既存のベクトルベース空間モデルであるBuild2Vecを構築することを目的とする。
スマートウォッチを用いた生態的モーメントアセスメント(EMA)による長手的熱的快適感の主観的フィードバックを用いた枠組み
テスト実装の結果,従来の温度優先予測入力変数を用いたベースラインのセットよりも14~28%精度が向上した。
論文 参考訳(メタデータ) (2021-10-30T07:43:11Z) - Learning User Preferences in Non-Stationary Environments [42.785926822853746]
オンラインノンステーショナリーレコメンデーションシステムのための新しいモデルを紹介します。
好みが変化しない場合でも,我々のアルゴリズムが他の静的アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-29T10:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。