Fugu-MT 論文翻訳(概要): On Sequential Bayesian Optimization with Pairwise Comparison

論文の概要: On Sequential Bayesian Optimization with Pairwise Comparison

arxiv url: http://arxiv.org/abs/2103.13192v1
Date: Wed, 24 Mar 2021 13:46:27 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-25 14:14:06.872254
Title: On Sequential Bayesian Optimization with Pairwise Comparison
Title（参考訳）: ペアワイズ比較による逐次ベイズ最適化について
Authors: Tanya Ignatenko, Kirill Kondrashov, Marco Cox, Bert de Vries
Abstract要約: 聴覚補聴器(HA)のパラメータ設定例に基づくユーザの嗜好学習の課題について検討する。本提案では,haユーザと対話するエージェントを用いて,最も有益なデータを収集し,それらのデータに基づいてhaパラメータ設定のユーザ嗜好を学習する。
参考スコア（独自算出の注目度）: 4.09863867812407
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we study the problem of user preference learning on the example of parameter setting for a hearing aid (HA). We propose to use an agent that interacts with a HA user, in order to collect the most informative data, and learns user preferences for HA parameter settings, based on these data. We model the HA system as two interacting sub-systems, one representing a user with his/her preferences and another one representing an agent. In this system, the user responses to HA settings, proposed by the agent. In our user model, the responses are driven by a parametric user preference function. The agent comprises the sequential mechanisms for user model inference and HA parameter proposal generation. To infer the user model (preference function), Bayesian approximate inference is used in the agent. Here we propose the normalized weighted Kullback-Leibler (KL) divergence between true and agent-assigned predictive user response distributions as a metric to assess the quality of learned preferences. Moreover, our agent strategy for generating HA parameter proposals is to generate HA settings, responses to which help resolving uncertainty associated with prediction of the user responses the most. The resulting data, consequently, allows for efficient user model learning. The normalized weighted KL-divergence plays an important role here as well, since it characterizes the informativeness of the data to be used for probing the user. The efficiency of our approach is validated by numerical simulations.
Abstract（参考訳）: 本研究では,補聴器のパラメータ設定(ha)の例として,ユーザの嗜好学習の問題点について検討する。本提案では,haユーザと対話するエージェントを用いて,最も有益なデータを収集し,それらのデータに基づいてhaパラメータ設定のユーザ嗜好を学習する。我々はhaシステムを2つの相互作用するサブシステムとしてモデル化する。1つはユーザを好み、もう1つはエージェントを表す。本システムでは,エージェントが提案するha設定に対するユーザ応答を行う。ユーザモデルでは、応答はパラメトリックなユーザ嗜好関数によって駆動されます。エージェントは、ユーザモデル推論およびhaパラメータ提案生成のためのシーケンシャルなメカニズムを含む。ユーザモデル(参照関数)を推定するために、エージェントにベイズ近似推論を用いる。本稿では,学習嗜好の質を評価する指標として,正規化重み付きKullback-Leibler(KL)の真とエージェント指定の予測的ユーザ応答分布の偏差を提案する。さらに,haパラメータプロポーザル生成のためのエージェント戦略は,ユーザ応答の予測に関する不確実性を解決するための応答であるha設定を生成することである。結果として得られるデータは、効率的なユーザモデル学習を可能にする。正規化重み付きKL分割もまた、ユーザを探索するために使用するデータの情報性が特徴付けられるので、重要な役割を果たす。この手法の効率は数値シミュレーションによって検証される。

関連論文リスト

Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User [117.82681846559909]
会話レコメンデーションシステム(CRS)は、マルチターンインタラクションを使用してユーザの好みを捉え、パーソナライズされたレコメンデーションを提供する。本稿では,CRSと自動インタラクションを行うための生成報酬モデルに基づくシミュレーションユーザGRSUを提案する。
論文参考訳（メタデータ） (2025-04-29T06:37:30Z)
Self-Interested Agents in Collaborative Machine Learning: An Incentivized Adaptive Data-Centric Framework [34.19393519060549]
本稿では,データ中心型協調機械学習のためのフレームワークを提案する。アービターはエージェントからデータのバッチを収集し、機械学習モデルをトレーニングし、各エージェントにデータコントリビューションを反映する独自のモデルを提供する。この設定は、共有データ影響モデルの更新を行うフィードバックループを確立し、結果のモデルが将来のデータ共有ポリシーをガイドする。
論文参考訳（メタデータ） (2024-12-09T15:47:36Z)
Beyond the Binary: Capturing Diverse Preferences With Reward Regularization [15.518838657050173]
この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
論文参考訳（メタデータ） (2024-12-05T02:35:46Z)
GaVaMoE: Gaussian-Variational Gated Mixture of Experts for Explainable Recommendation [55.769720670731516]
GaVaMoEは、説明可能なレコメンデーションのための新しいフレームワークである。特定のユーザータイプや好みのカスタマイズされた説明を生成する。疎いユーザ-イテムインタラクションのシナリオでは、堅牢なパフォーマンスを示す。
論文参考訳（メタデータ） (2024-10-15T17:59:30Z)
Customizing Language Models with Instance-wise LoRA for Sequential Recommendation [28.667247613039965]
時系列レコメンデーションシステムは、ユーザの過去のインタラクションに基づいて次のインタラクション項目を予測し、個別の好みに合わせてレコメンデーションを調整する。マルチタスク学習の一形態としてインスタンスワイドLoRA(iLoRA)を提案し、LoRAとMixture of Experts(MoE)フレームワークを統合する。 iLoRAは、トレーニング可能なパラメータの1%未満の相対的な増加で、基本的なLoRAよりも11.4%の平均的な相対的な改善を達成している。
論文参考訳（メタデータ） (2024-08-19T17:09:32Z)
Perceptron Collaborative Filtering [0.0]
推薦システムは情報フィルタリングシステムのサブクラスであり、特定のユーザにとって最も関連性の高い項目に対する提案を提供する。パーセプトロン(Perceptron)またはニューラルネットワーク(Neural Network)は、バックプロパゲーションと勾配降下を用いた複雑なデータセットの適合のために設計された機械学習モデルである。パーセプトロンをレコメンデータシステムで使用し、パラメータ、すなわち、複数のユーザのデータに適合させ、それを特定のユーザの好みや関心を予測する。
論文参考訳（メタデータ） (2024-06-17T16:02:45Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Interactive Hyperparameter Optimization in Multi-Objective Problems via Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文参考訳（メタデータ） (2023-09-07T09:22:05Z)
Out-of-sample scoring and automatic selection of causal estimators [0.0]
本稿では,CATEの場合と器楽変数問題の重要な部分集合に対する新しいスコアリング手法を提案する。私たちはそれを、DoWhyとEconMLライブラリに依存するオープンソースパッケージで実装しています。
論文参考訳（メタデータ） (2022-12-20T08:29:18Z)
Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文参考訳（メタデータ） (2022-11-17T19:00:24Z)
Meta-Wrapper: Differentiable Wrapping Operator for User Interest Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文参考訳（メタデータ） (2022-06-28T03:28:15Z)
On Variational Inference for User Modeling in Attribute-Driven Collaborative Filtering [10.64460581091531]
本稿では,因果推論を用いて時間的文脈からユーザの属性親和性を学習する手法を提案する。この目的を確率論的機械学習問題として定式化し、モデルパラメータを推定するために変分推論に基づく手法を適用する。
論文参考訳（メタデータ） (2020-12-02T22:39:58Z)
Large-scale Hybrid Approach for Predicting User Satisfaction with Conversational Agents [28.668681892786264]
ユーザの満足度を測定することは難しい課題であり、大規模な会話エージェントシステムの開発において重要な要素である。人間のアノテーションに基づくアプローチは簡単に制御できるが、スケールするのは難しい。新たなアプローチとして,会話エージェントシステムに埋め込まれたフィードバック誘導システムを通じて,ユーザの直接的なフィードバックを収集する手法がある。
論文参考訳（メタデータ） (2020-05-29T16:29:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。