論文の概要: On Sequential Bayesian Optimization with Pairwise Comparison
- arxiv url: http://arxiv.org/abs/2103.13192v1
- Date: Wed, 24 Mar 2021 13:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 14:14:06.872254
- Title: On Sequential Bayesian Optimization with Pairwise Comparison
- Title(参考訳): ペアワイズ比較による逐次ベイズ最適化について
- Authors: Tanya Ignatenko, Kirill Kondrashov, Marco Cox, Bert de Vries
- Abstract要約: 聴覚補聴器(HA)のパラメータ設定例に基づくユーザの嗜好学習の課題について検討する。
本提案では,haユーザと対話するエージェントを用いて,最も有益なデータを収集し,それらのデータに基づいてhaパラメータ設定のユーザ嗜好を学習する。
- 参考スコア(独自算出の注目度): 4.09863867812407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study the problem of user preference learning on the example
of parameter setting for a hearing aid (HA). We propose to use an agent that
interacts with a HA user, in order to collect the most informative data, and
learns user preferences for HA parameter settings, based on these data. We
model the HA system as two interacting sub-systems, one representing a user
with his/her preferences and another one representing an agent. In this system,
the user responses to HA settings, proposed by the agent. In our user model,
the responses are driven by a parametric user preference function. The agent
comprises the sequential mechanisms for user model inference and HA parameter
proposal generation. To infer the user model (preference function), Bayesian
approximate inference is used in the agent. Here we propose the normalized
weighted Kullback-Leibler (KL) divergence between true and agent-assigned
predictive user response distributions as a metric to assess the quality of
learned preferences. Moreover, our agent strategy for generating HA parameter
proposals is to generate HA settings, responses to which help resolving
uncertainty associated with prediction of the user responses the most. The
resulting data, consequently, allows for efficient user model learning. The
normalized weighted KL-divergence plays an important role here as well, since
it characterizes the informativeness of the data to be used for probing the
user. The efficiency of our approach is validated by numerical simulations.
- Abstract(参考訳): 本研究では,補聴器のパラメータ設定(ha)の例として,ユーザの嗜好学習の問題点について検討する。
本提案では,haユーザと対話するエージェントを用いて,最も有益なデータを収集し,それらのデータに基づいてhaパラメータ設定のユーザ嗜好を学習する。
我々はhaシステムを2つの相互作用するサブシステムとしてモデル化する。1つはユーザを好み、もう1つはエージェントを表す。
本システムでは,エージェントが提案するha設定に対するユーザ応答を行う。
ユーザモデルでは、応答はパラメトリックなユーザ嗜好関数によって駆動されます。
エージェントは、ユーザモデル推論およびhaパラメータ提案生成のためのシーケンシャルなメカニズムを含む。
ユーザモデル(参照関数)を推定するために、エージェントにベイズ近似推論を用いる。
本稿では,学習嗜好の質を評価する指標として,正規化重み付きKullback-Leibler(KL)の真とエージェント指定の予測的ユーザ応答分布の偏差を提案する。
さらに,haパラメータプロポーザル生成のためのエージェント戦略は,ユーザ応答の予測に関する不確実性を解決するための応答であるha設定を生成することである。
結果として得られるデータは、効率的なユーザモデル学習を可能にする。
正規化重み付きKL分割もまた、ユーザを探索するために使用するデータの情報性が特徴付けられるので、重要な役割を果たす。
この手法の効率は数値シミュレーションによって検証される。
関連論文リスト
- Relative Preference Optimization: Enhancing LLM Alignment through
Contrasting Responses across Identical and Diverse Prompts [100.76940486636121]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文で提示された結果を再現するために必要なPyTorchコードは、GitHubで公開されている。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Interactive Hyperparameter Optimization in Multi-Objective Problems via
Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。
ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文 参考訳(メタデータ) (2023-09-07T09:22:05Z) - Explainable Active Learning for Preference Elicitation [0.0]
我々は、最小限のユーザ労力で情報取得を最大化することを目的として、この問題を解決するためにアクティブラーニング(AL)を採用している。
ALは、大きなラベルのない集合から情報的データを選択して、それらをラベル付けするオラクルを問い合わせる。
ベースとなる機械学習(ML)モデルを更新するために、ユーザからのフィードバック(提示された項目に関するシステムの説明のために)を情報的なサンプルから収集する。
論文 参考訳(メタデータ) (2023-09-01T09:22:33Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Out-of-sample scoring and automatic selection of causal estimators [0.0]
本稿では,CATEの場合と器楽変数問題の重要な部分集合に対する新しいスコアリング手法を提案する。
私たちはそれを、DoWhyとEconMLライブラリに依存するオープンソースパッケージで実装しています。
論文 参考訳(メタデータ) (2022-12-20T08:29:18Z) - Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。
しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。
したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文 参考訳(メタデータ) (2022-11-17T19:00:24Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - Modeling Dynamic User Preference via Dictionary Learning for Sequential
Recommendation [133.8758914874593]
ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。
浅いものも深いものも含む、既存のレコメンデーションアルゴリズムの多くは、このようなダイナミクスを独立してモデル化することが多い。
本稿では、ユーザのシーケンシャルな振る舞いを、ユーザ好みの潜伏した空間に埋め込むことの問題について考察する。
論文 参考訳(メタデータ) (2022-04-02T03:23:46Z) - On Variational Inference for User Modeling in Attribute-Driven
Collaborative Filtering [10.64460581091531]
本稿では,因果推論を用いて時間的文脈からユーザの属性親和性を学習する手法を提案する。
この目的を確率論的機械学習問題として定式化し、モデルパラメータを推定するために変分推論に基づく手法を適用する。
論文 参考訳(メタデータ) (2020-12-02T22:39:58Z) - Large-scale Hybrid Approach for Predicting User Satisfaction with
Conversational Agents [28.668681892786264]
ユーザの満足度を測定することは難しい課題であり、大規模な会話エージェントシステムの開発において重要な要素である。
人間のアノテーションに基づくアプローチは簡単に制御できるが、スケールするのは難しい。
新たなアプローチとして,会話エージェントシステムに埋め込まれたフィードバック誘導システムを通じて,ユーザの直接的なフィードバックを収集する手法がある。
論文 参考訳(メタデータ) (2020-05-29T16:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。