論文の概要: MTRec: Learning to Align with User Preferences via Mental Reward Models
- arxiv url: http://arxiv.org/abs/2509.22807v2
- Date: Fri, 03 Oct 2025 12:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.895436
- Title: MTRec: Learning to Align with User Preferences via Mental Reward Models
- Title(参考訳): MTRec: メンタルリワードモデルによるユーザの嗜好に適応する学習
- Authors: Mengchen Zhao, Yifan Gao, Yaqing Hou, Xiangyang Li, Pengjie Gu, Zhenhua Dong, Ruiming Tang, Yi Cai,
- Abstract要約: 我々は、実際のユーザの好みに合わせてデザインされたシーケンシャルなレコメンデーションフレームワークであるMTRecを提案する。
ユーザの満足度を定量化するためのメンタル報酬モデルを導入し,それを学習するための分散逆強化学習手法を提案する。
実験により、MTRecは様々なレコメンデーションモデルに大幅な改善をもたらすことが示された。
- 参考スコア(独自算出の注目度): 60.321038000806176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recommendation models are predominantly trained using implicit user feedback, since explicit feedback is often costly to obtain. However, implicit feedback, such as clicks, does not always reflect users' real preferences. For example, a user might click on a news article because of its attractive headline, but end up feeling uncomfortable after reading the content. In the absence of explicit feedback, such erroneous implicit signals may severely mislead recommender systems. In this paper, we propose MTRec, a novel sequential recommendation framework designed to align with real user preferences by uncovering their internal satisfaction on recommended items. Specifically, we introduce a mental reward model to quantify user satisfaction and propose a distributional inverse reinforcement learning approach to learn it. The learned mental reward model is then used to guide recommendation models to better align with users' real preferences. Our experiments show that MTRec brings significant improvements to a variety of recommendation models. We also deploy MTRec on an industrial short video platform and observe a 7 percent increase in average user viewing time.
- Abstract(参考訳): 推奨モデルは暗黙のフィードバックを使って主に訓練される。
しかし、クリックのような暗黙のフィードバックは、ユーザーの実際の好みを常に反映しているわけではない。
例えば、ユーザーがニュース記事をクリックするのは、その見出しが魅力的なためだが、コンテンツを読むと不快感を感じることになる。
明示的なフィードバックがない場合、そのような誤った暗黙の信号は、推奨システムをひどく誤解させる可能性がある。
本稿では,推奨項目に対する内部満足度を明らかにすることで,実際のユーザの嗜好と整合する新しいレコメンデーションフレームワークであるMTRecを提案する。
具体的には、ユーザの満足度を定量化するためのメンタル報酬モデルを導入し、それを学習するための分散逆強化学習手法を提案する。
学習されたメンタル報酬モデルは、ユーザの実際の好みに合わせてレコメンデーションモデルをガイドするために使用される。
実験の結果,MTRecは様々なレコメンデーションモデルに大幅な改善をもたらすことがわかった。
また、産業用ショートビデオプラットフォームにMTRecをデプロイし、平均視聴時間の7%増加を観察します。
関連論文リスト
- Enhancing Sequential Recommender with Large Language Models for Joint Video and Comment Recommendation [77.42486522565295]
我々は、パーソナライズされたビデオとコメントのレコメンデーションを共同で行うLSVCRと呼ばれる新しいレコメンデーション手法を提案する。
提案手法は,逐次レコメンデーション(SR)モデルと補足型大言語モデル(LLM)レコメンデーションという2つの重要なコンポーネントから構成される。
特に、コメント視聴時間の累積増加率は4.13%に達した。
論文 参考訳(メタデータ) (2024-03-20T13:14:29Z) - Interactive Garment Recommendation with User in the Loop [77.35411131350833]
我々は,服を作るために補完的なアイテムを推奨するので,ユーザ反応を統合することでユーザプロファイルをその場で構築することを提案する。
本稿では,適切な衣服を提案し,ユーザのフィードバックを取り入れて推薦を改善することができる強化学習エージェントを提案する。
論文 参考訳(メタデータ) (2024-02-18T16:01:28Z) - Learning from Negative User Feedback and Measuring Responsiveness for
Sequential Recommenders [13.762960304406016]
シーケンシャルレコメンデータのトレーニング目標に、明示的かつ暗黙的なネガティブなユーザフィードバックを導入する。
大規模産業レコメンデーションシステムを用いた実演実験により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-23T17:16:07Z) - Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。
しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。
したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文 参考訳(メタデータ) (2022-11-17T19:00:24Z) - Recommendation with User Active Disclosing Willingness [20.306413327597603]
本研究では,ユーザが異なる行動を公開する上で,その「意志」を示すことを許される,新しい推薦パラダイムについて検討する。
我々は,推薦品質とユーザ開示意欲のバランスをとる上で,モデルの有効性を示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-10-25T04:43:40Z) - Correcting the User Feedback-Loop Bias for Recommendation Systems [34.44834423714441]
本稿では,レコメンデーションシステムにおいて,ユーザのフィードバックループバイアスを修正するための系統的かつ動的手法を提案する。
本手法は,各ユーザの動的評価履歴の埋め込みを学習するためのディープラーニングコンポーネントを含む。
実世界のレコメンデーションシステムにおけるユーザフィードバックループバイアスの存在を実証的に検証した。
論文 参考訳(メタデータ) (2021-09-13T15:02:55Z) - PURS: Personalized Unexpected Recommender System for Improving User
Satisfaction [76.98616102965023]
本稿では、予期せぬことを推奨プロセスに組み込んだ、新しいPersonalized Unexpected Recommender System(PURS)モデルについて述べる。
3つの実世界のデータセットに対する大規模なオフライン実験は、提案されたPURSモデルが最先端のベースラインアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-06-05T01:33:21Z) - ELIXIR: Learning from User Feedback on Explanations to Improve
Recommender Models [26.11434743591804]
説明に対するユーザフィードバックをユーザ好みのペアワイズ学習に活用する,ループ内人間フレームワーク ELIXIR を考案した。
elixirは、レコメンデーションと説明のペアに対するフィードバックを活用して、ユーザ固有の潜在選好ベクトルを学習する。
このフレームワークは、ランダムウォークとリスタートによる一般化グラフレコメンデーションを用いてインスタンス化される。
論文 参考訳(メタデータ) (2021-02-15T13:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。