論文の概要: Mirroring Users: Towards Building Preference-aligned User Simulator with User Feedback in Recommendation
- arxiv url: http://arxiv.org/abs/2508.18142v1
- Date: Mon, 25 Aug 2025 15:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.846904
- Title: Mirroring Users: Towards Building Preference-aligned User Simulator with User Feedback in Recommendation
- Title(参考訳): ユーザをミラーリングする - 推奨のフィードバックを取り入れたユーザシミュレータの構築に向けて
- Authors: Tianjun Wei, Huizhong Guo, Yingpeng Du, Zhu Sun, Chen Huang, Dongxia Wang, Jie Zhang,
- Abstract要約: ユーザシミュレーションは、リコメンデータシステム(RS)の開発と評価にますます不可欠である。
このアライメントを強化するための巨大な未使用のリソースは、RSに固有の広範なユーザーフィードバックである。
本稿では,高度なLLM機能を備えたRSのユーザフィードバックを活用して,高品質なシミュレーションデータを生成する新しいデータ構築フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.40619735445983
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: User simulation is increasingly vital to develop and evaluate recommender systems (RSs). While Large Language Models (LLMs) offer promising avenues to simulate user behavior, they often struggle with the absence of specific domain alignment required for RSs and the efficiency demands of large-scale simulation. A vast yet underutilized resource for enhancing this alignment is the extensive user feedback inherent in RSs. However, directly leveraging such feedback presents two significant challenges. First, user feedback in RSs is often ambiguous and noisy, which negatively impacts effective preference alignment. Second, the massive volume of feedback largely hinders the efficiency of preference alignment, necessitating an efficient filtering mechanism to identify more informative samples. To overcome these hurdles, we introduce a novel data construction framework that leverages user feedback in RSs with advanced LLM capabilities to generate high-quality simulation data. Our framework unfolds in two key phases: (1) employing LLMs to generate cognitive decision-making processes on constructed simulation samples, reducing ambiguity in raw user feedback; (2) data distillation based on uncertainty estimation and behavior sampling to filter challenging yet denoised simulation samples. Accordingly, we fine-tune lightweight LLMs, as user simulators, using such high-quality dataset with corresponding decision-making processes. Extensive experiments verify that our framework significantly boosts the alignment with human preferences and in-domain reasoning capabilities of fine-tuned LLMs, and provides more insightful and interpretable signals when interacting with RSs. We believe our work will advance the RS community and offer valuable insights for broader human-centric AI research.
- Abstract(参考訳): ユーザシミュレーションは、リコメンデータシステム(RS)の開発と評価にますます不可欠である。
大きな言語モデル(LLM)は、ユーザの振る舞いをシミュレートするための有望な道を提供するが、RSに必要な特定のドメインアライメントがないことや大規模なシミュレーションの効率性の要求にしばしば苦労する。
このアライメントを強化するための巨大な未使用のリソースは、RSに固有の広範なユーザーフィードバックである。
しかし、そのようなフィードバックを直接活用することは、2つの大きな課題をもたらす。
まず、RSにおけるユーザのフィードバックは曖昧でノイズが多いため、効果的な優先順位付けに悪影響を及ぼす。
第二に、膨大な量のフィードバックは、選好アライメントの効率を阻害し、より有益なサンプルを特定するために効率的なフィルタリング機構を必要とする。
これらのハードルを克服するために,高度なLLM機能を備えたRSのユーザフィードバックを活用し,高品質なシミュレーションデータを生成する新しいデータ構築フレームワークを提案する。
本フレームワークは,(1)構築したシミュレーションサンプルの認知的意思決定プロセスの生成,生ユーザフィードバックのあいまいさの低減,(2)不確実性推定と行動サンプリングに基づくデータ蒸留,の2つの重要な段階に展開する。
そこで,ユーザシミュレータとして,それに対応する意思決定プロセスを備えた高品質なデータセットを用いて,軽量LCMを微調整する。
大規模な実験により、我々のフレームワークは、微調整LDMの人間の嗜好とドメイン内推論能力との整合性を大幅に向上させ、RSとの相互作用においてより洞察に富んだ、解釈可能な信号を提供することを確認した。
私たちは、我々の研究がRSコミュニティを前進させ、より広範な人間中心のAI研究に貴重な洞察を提供すると信じています。
関連論文リスト
- Diagnostic-Guided Dynamic Profile Optimization for LLM-based User Simulators in Sequential Recommendation [15.61963892566877]
DGDPOは動的かつ反復的な最適化プロセスを通じてユーザプロファイルを構築する新しいフレームワークである。
シングルラウンドインタラクションに限定された既存のLCMベースのユーザシミュレータとは異なり、DGDPOをシーケンシャルレコメンデータと統合するのは初めてです。
論文 参考訳(メタデータ) (2025-08-18T06:17:59Z) - Multi-agents based User Values Mining for Recommendation [52.26100802380767]
効率的なユーザ値抽出のためのゼロショットマルチLLM協調フレームワークを提案する。
本研究は,本質的な意味を保ちながら,項目内容のコンデンスにテキスト要約手法を適用した。
幻覚を緩和するために,評価役と監督役の2つの特殊エージェントの役割を導入する。
論文 参考訳(メタデータ) (2025-05-02T04:01:31Z) - Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User [117.82681846559909]
会話レコメンデーションシステム(CRS)は、マルチターンインタラクションを使用してユーザの好みを捉え、パーソナライズされたレコメンデーションを提供する。
本稿では,CRSと自動インタラクションを行うための生成報酬モデルに基づくシミュレーションユーザGRSUを提案する。
論文 参考訳(メタデータ) (2025-04-29T06:37:30Z) - LLM-Powered User Simulator for Recommender System [29.328839982869923]
LLMを利用したユーザシミュレータを導入し、アイテムとのユーザエンゲージメントを明示的にシミュレートする。
具体的には、ユーザ嗜好の明示的なロジックを特定し、LCMを活用してアイテムの特性を分析し、ユーザ感情を抽出する。
本稿では,ユーザインタラクションシミュレーションの論理的および統計的洞察を相乗化するアンサンブルモデルを提案する。
論文 参考訳(メタデータ) (2024-12-22T12:00:04Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - LLMEmb: Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation [57.49045064294086]
大きな言語モデル(LLM)は、その人気とは無関係に、アイテム間の意味的関係をキャプチャする能力を持つ。
LLMEmb(LLMEmb)は、LCMを利用してアイテム埋め込みを生成し、逐次レコメンダシステム(SRS)の性能を向上させる手法である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation [14.646529557978512]
本稿では,対話型レコメンダシステムのためのユーザシミュレータ構築におけるLarge Language Modelsの使用制限について分析する。
会話履歴やユーザシミュレータの応答で発生するデータ漏洩は,評価結果を膨らませる結果となる。
そこで我々はSimpleUserSimを提案する。
論文 参考訳(メタデータ) (2024-03-25T04:21:06Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。