論文の概要: Combinatorial Reinforcement Learning with Preference Feedback
- arxiv url: http://arxiv.org/abs/2502.10158v1
- Date: Fri, 14 Feb 2025 13:37:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:44.870877
- Title: Combinatorial Reinforcement Learning with Preference Feedback
- Title(参考訳): 優先フィードバックを用いた組合せ強化学習
- Authors: Joongkyu Lee, Min-hwan Oh,
- Abstract要約: そこでは,学習エージェントが順次,複数の項目をユーザへ割り当てるアクションを提示する,優先的なフィードバックによる強化学習を検討する。
本枠組みは,(1)各項目の未知の値,(2)選択性を維持しながら楽観性を確保することの難しさ,の2つの課題に直面する。
本稿では,これらの課題に対処し,統計的に効率的なアルゴリズムMNL-VQLを提案する。
- 参考スコア(独自算出の注目度): 8.087699764574788
- License:
- Abstract: In this paper, we consider combinatorial reinforcement learning with preference feedback, where a learning agent sequentially offers an action--an assortment of multiple items to--a user, whose preference feedback follows a multinomial logistic (MNL) model. This framework allows us to model real-world scenarios, particularly those involving long-term user engagement, such as in recommender systems and online advertising. However, this framework faces two main challenges: (1) the unknown value of each item, unlike traditional MNL bandits that only address single-step preference feedback, and (2) the difficulty of ensuring optimism while maintaining tractable assortment selection in the combinatorial action space with unknown values. In this paper, we assume a contextual MNL preference model, where the mean utilities are linear, and the value of each item is approximated by a general function. We propose an algorithm, MNL-VQL, that addresses these challenges, making it both computationally and statistically efficient. As a special case, for linear MDPs (with the MNL preference feedback), we establish the first regret lower bound in this framework and show that MNL-VQL achieves nearly minimax-optimal regret. To the best of our knowledge, this is the first work to provide statistical guarantees in combinatorial RL with preference feedback.
- Abstract(参考訳): 本稿では,複数項目を順に並べたアクションを学習エージェントが順次提供し,その好みフィードバックをMNLモデルに従わせることを目的とした,組合せ強化学習について考察する。
このフレームワークは,特にレコメンデータシステムやオンライン広告など,長期的なユーザエンゲージメントに関わる現実シナリオをモデル化することを可能にする。
しかし,この枠組みは,(1)単一ステップの選好フィードバックのみに対処する従来のMNLバンディットとは異なり,各項目の未知の値,(2)未知の値を持つ組合せ行動空間における抽出可能なソート選択を維持しつつ,最適性を確保することの難しさ,の2つの課題に直面する。
本稿では,平均効用が線形であり,各項目の値が一般関数で近似される文脈的MNL選好モデルを仮定する。
本稿では,これらの課題に対処するアルゴリズム MNL-VQL を提案する。
特別の場合として、線形MDP(MNL選好フィードバック付き)に対して、このフレームワークで最初の後悔の下位境界を確立し、MNL-VQLが最小限の後悔をほぼ達成していることを示す。
我々の知る限りでは、これは組合せRLの統計的保証を好みのフィードバックで提供する最初の試みである。
関連論文リスト
- Online Clustering of Dueling Bandits [59.09590979404303]
本稿では、優先フィードバックに基づく協調的な意思決定を可能にするために、最初の「デュエルバンディットアルゴリズムのクラスタリング」を導入する。
本稿では,(1)ユーザ報酬関数をコンテキストベクトルの線形関数としてモデル化する線形デューリング帯域のクラスタリング(COLDB)と,(2)ニューラルネットワークを用いて複雑な非線形ユーザ報酬関数をモデル化するニューラルデューリング帯域のクラスタリング(CONDB)の2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-04T07:55:41Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Beyond the Binary: Capturing Diverse Preferences With Reward Regularization [15.518838657050173]
この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。
本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-12-05T02:35:46Z) - LLM-assisted Explicit and Implicit Multi-interest Learning Framework for Sequential Recommendation [50.98046887582194]
本研究では,ユーザの興味を2つのレベル – 行動と意味論 – でモデル化する,明示的で暗黙的な多目的学習フレームワークを提案する。
提案するEIMFフレームワークは,小型モデルとLLMを効果的に組み合わせ,多目的モデリングの精度を向上させる。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - LLMEmb: Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation [57.49045064294086]
大きな言語モデル(LLM)は、その人気とは無関係に、アイテム間の意味的関係をキャプチャする能力を持つ。
LLMEmb(LLMEmb)は、LCMを利用してアイテム埋め込みを生成し、逐次レコメンダシステム(SRS)の性能を向上させる手法である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - Improved Diversity-Promoting Collaborative Metric Learning for Recommendation [127.08043409083687]
CML(Collaborative Metric Learning)は、リコメンデーションシステムにおいて人気のある手法として最近登場した。
本稿では,ユーザが複数のカテゴリの関心を持つ,困難なシナリオに焦点をあてる。
textitDiversity-Promoting Collaborative Metric Learning (DPCML) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T07:44:48Z) - Bayesian Optimization with LLM-Based Acquisition Functions for Natural Language Preference Elicitation [18.550311424902358]
大規模言語モデル(LLM)は、完全な自然言語(NL)PE対話を可能にする。
ユーザの好みの発話とNL項目記述の間で自然言語推論(NLI)を利用する新しいNL-PEアルゴリズムであるPEBOLを提案する。
PEBOLは最大0.27のMRR@10を達成できるのに対し、最高のモノリシックLCMベースラインのMRR@10は0.17のMRR@10を達成できる。
論文 参考訳(メタデータ) (2024-05-02T03:35:21Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Multi-View Interactive Collaborative Filtering [0.0]
本稿では、評価情報と文脈情報の両方を組み込んだ、新しいオンライン潜在因子推薦アルゴリズムを提案する。
MV-ICTRは、コールドスタートユーザやアイテムの比率が高いデータセットの性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-05-14T20:31:37Z) - Sample-Rank: Weak Multi-Objective Recommendations Using Rejection
Sampling [0.5156484100374059]
本稿では,マルチゴールサンプリングとユーザ関連度(Sample-Rank)のランク付けによるマーケットプレースの多目的目標への推薦手法を提案する。
提案手法の新規性は,望まれるマルチゴール分布からサンプリングするMOレコメンデーション問題を低減し,プロダクションフレンドリーな学習-ランクモデルを構築することである。
論文 参考訳(メタデータ) (2020-08-24T09:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。