論文の概要: A Comparative Study on Reward Models for UI Adaptation with
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2308.13937v1
- Date: Sat, 26 Aug 2023 18:31:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 12:27:20.697353
- Title: A Comparative Study on Reward Models for UI Adaptation with
Reinforcement Learning
- Title(参考訳): 強化学習を用いたUI適応のための逆モデルの比較検討
- Authors: Daniel Gaspar Figueiredo, Silvia Abrah\~ao, Marta Fern\'andez-Diego,
Emilio Insfran
- Abstract要約: 強化学習は、使用状況ごとにインターフェイスをパーソナライズするために使用することができる。
それぞれのアダプティブの報酬を決定することは、UIアダプティブに対するRLの課題である。
最近の研究では、この課題に対処するための報酬モデルの使用について検討されているが、このタイプのモデルに関する実証的な証拠はない。
- 参考スコア(独自算出の注目度): 0.6899744489931015
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Adapting the User Interface (UI) of software systems to user requirements and
the context of use is challenging. The main difficulty consists of suggesting
the right adaptation at the right time in the right place in order to make it
valuable for end-users. We believe that recent progress in Machine Learning
techniques provides useful ways in which to support adaptation more
effectively. In particular, Reinforcement learning (RL) can be used to
personalise interfaces for each context of use in order to improve the user
experience (UX). However, determining the reward of each adaptation alternative
is a challenge in RL for UI adaptation. Recent research has explored the use of
reward models to address this challenge, but there is currently no empirical
evidence on this type of model. In this paper, we propose a confirmatory study
design that aims to investigate the effectiveness of two different approaches
for the generation of reward models in the context of UI adaptation using RL:
(1) by employing a reward model derived exclusively from predictive
Human-Computer Interaction (HCI) models (HCI), and (2) by employing predictive
HCI models augmented by Human Feedback (HCI&HF). The controlled experiment will
use an AB/BA crossover design with two treatments: HCI and HCI&HF. We shall
determine how the manipulation of these two treatments will affect the UX when
interacting with adaptive user interfaces (AUI). The UX will be measured in
terms of user engagement and user satisfaction, which will be operationalized
by means of predictive HCI models and the Questionnaire for User Interaction
Satisfaction (QUIS), respectively. By comparing the performance of two reward
models in terms of their ability to adapt to user preferences with the purpose
of improving the UX, our study contributes to the understanding of how reward
modelling can facilitate UI adaptation using RL.
- Abstract(参考訳): ソフトウェアシステムのユーザインタフェース(ui)をユーザ要件や使用状況に適応させることは困難である。
主な難点は、エンドユーザに価値を与えるために、適切なタイミングで適切な適応を適切な場所で提案することである。
機械学習技術の最近の進歩は、適応をより効果的にサポートする有用な方法を提供すると信じている。
特に、強化学習(RL)は、ユーザエクスペリエンス(UX)を改善するために、使用状況ごとにインターフェイスをパーソナライズするために使用することができる。
しかし、UI適応におけるRLの課題は、各アダプティブ代替の報酬を決定することである。
最近の研究では、この課題に対処するための報酬モデルの使用について検討されているが、このタイプのモデルに関する実証的な証拠はない。
本稿では、rlを用いたui適応の文脈における報酬モデル生成のための2つの異なる手法の有効性を検討することを目的とした確認研究設計について述べる。(1)予測型人間-コンピュータインタラクション(hci)モデル(hci)のみから導出した報酬モデル(hci&hf)、(2)人的フィードバックによる予測型hciモデル(hci&hf)である。
コントロールされた実験では、HCIとHCI&HFの2つの治療法を備えたAB/BAクロスオーバー設計を使用する。
これら2つの処理の操作が、適応ユーザインタフェース(AUI)と相互作用する際のUXにどのように影響するかを判断する。
UXは、ユーザエンゲージメントとユーザ満足度の観点から測定され、予測的HCIモデルとユーザインタラクション満足度アンケート(QUIS)によってそれぞれ運用される。
2つの報酬モデルの性能をユーザ好みに適応する能力とUXを改善する能力で比較することにより、報奨モデルがRLを用いたUI適応を促進する方法の理解に寄与する。
関連論文リスト
- Dual Test-time Training for Out-of-distribution Recommender System [91.15209066874694]
DT3ORと呼ばれるOODレコメンデーションのための新しいDual Test-Time-Trainingフレームワークを提案する。
DT3ORでは、テスト期間中にモデル適応機構を導入し、リコメンデーションモデルを慎重に更新する。
我々の知る限りでは、テストタイムトレーニング戦略を通じてOODレコメンデーションに対処する最初の研究である。
論文 参考訳(メタデータ) (2024-07-22T13:27:51Z) - Reinforcement Learning-Based Framework for the Intelligent Adaptation of User Interfaces [0.0]
ユーザのニーズや好みを満たすために、ソフトウェアシステムのユーザインターフェース(UI)を適用するのは、複雑な作業です。
機械学習(ML)技術の最近の進歩は、適応プロセスを支援する効果的な手段を提供するかもしれない。
本稿では,Reinforcement Learning (RL) をMLコンポーネントとして,インテリジェントユーザインタフェース適応のための参照フレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2024-05-15T11:14:33Z) - Personalized Language Modeling from Personalized Human Feedback [49.344833339240566]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、人間の好みに合わせて大きな言語モデルを微調整するために一般的に用いられる。
本研究では,パーソナライズされた言語モデルを構築する手法を開発することにより,この問題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Learning from Interaction: User Interface Adaptation using Reinforcement
Learning [0.0]
この論文では、生理的データを用いたRLベースのUI適応フレームワークを提案する。
このフレームワークは、ユーザインタラクションから学び、ユーザエクスペリエンス(UX)を改善するための情報適応を実現することを目的としている。
論文 参考訳(メタデータ) (2023-12-12T12:29:18Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Computational Adaptation of XR Interfaces Through Interaction Simulation [4.6193503399184275]
本稿では,ユーザエクスペリエンスとパフォーマンスの向上を目的として,XRインタフェースを適応するための計算手法について論じる。
メニュー選択タスクに適用した新しいモデルでは,認知的コストと運動的コストの両方を考慮してユーザインタラクションをシミュレートする。
論文 参考訳(メタデータ) (2022-04-19T23:37:07Z) - Adapting User Interfaces with Model-based Reinforcement Learning [47.469980921522115]
インターフェースへの適応には、変更がユーザに与えるポジティブな効果とネガティブな効果の両方を考慮する必要があります。
保守的な適応政策をもたらす適応的ユーザインターフェースの新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-03-11T17:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。