論文の概要: Diagnostic-Guided Dynamic Profile Optimization for LLM-based User Simulators in Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2508.12645v1
- Date: Mon, 18 Aug 2025 06:17:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.986055
- Title: Diagnostic-Guided Dynamic Profile Optimization for LLM-based User Simulators in Sequential Recommendation
- Title(参考訳): シークエンシャルレコメンデーションにおけるLCMを用いたユーザシミュレータの診断誘導動的プロファイル最適化
- Authors: Hongyang Liu, Zhu Sun, Tianjun Wei, Yan Wang, Jiajie Zhu, Xinghua Qu,
- Abstract要約: DGDPOは動的かつ反復的な最適化プロセスを通じてユーザプロファイルを構築する新しいフレームワークである。
シングルラウンドインタラクションに限定された既存のLCMベースのユーザシミュレータとは異なり、DGDPOをシーケンシャルレコメンデータと統合するのは初めてです。
- 参考スコア(独自算出の注目度): 15.61963892566877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have enabled realistic user simulators for developing and evaluating recommender systems (RSs). However, existing LLM-based simulators for RSs face two major limitations: (1) static and single-step prompt-based inference that leads to inaccurate and incomplete user profile construction; (2) unrealistic and single-round recommendation-feedback interaction pattern that fails to capture real-world scenarios. To address these limitations, we propose DGDPO (Diagnostic-Guided Dynamic Profile Optimization), a novel framework that constructs user profile through a dynamic and iterative optimization process to enhance the simulation fidelity. Specifically, DGDPO incorporates two core modules within each optimization loop: firstly, a specialized LLM-based diagnostic module, calibrated through our novel training strategy, accurately identifies specific defects in the user profile. Subsequently, a generalized LLM-based treatment module analyzes the diagnosed defect and generates targeted suggestions to refine the profile. Furthermore, unlike existing LLM-based user simulators that are limited to single-round interactions, we are the first to integrate DGDPO with sequential recommenders, enabling a bidirectional evolution where user profiles and recommendation strategies adapt to each other over multi-round interactions. Extensive experiments conducted on three real-world datasets demonstrate the effectiveness of our proposed framework.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩により、レコメンダシステム(RS)の開発と評価のための現実的なユーザシミュレータが実現されている。
しかし、既存のLSMベースのRSシミュレータには、(1)不正確で不完全なユーザプロファイル構築につながる静的かつ単段階のプロンプトベースの推論、(2)現実世界のシナリオを捉えるのに失敗する非現実的で単ラウンドのレコメンデーション-フィードバック相互作用パターン、という2つの大きな制限がある。
DGDPO(Diagnostic-Guided Dynamic Profile Optimization)は,動的かつ反復的な最適化プロセスを通じてユーザプロファイルを構築することで,シミュレーションの忠実度を高める新しいフレームワークである。
具体的には、DGDPOは最適化ループに2つのコアモジュールを組み込んでおり、第一に、私たちの新しいトレーニング戦略によって調整された特殊なLCMベースの診断モジュールが、ユーザプロファイルの特定の欠陥を正確に識別する。
その後、一般化LDMベースの治療モジュールが診断された欠陥を分析し、プロファイルを洗練するためのターゲット提案を生成する。
さらに,従来のLCMベースのユーザシミュレータとは違って,DGDPOとシーケンシャルレコメンデータを統合することで,マルチラウンドインタラクションを通じてユーザプロファイルとレコメンデーション戦略が相互に適応する,双方向の進化を可能にする。
3つの実世界のデータセットで実施した大規模な実験により,提案手法の有効性が示された。
関連論文リスト
- When Relevance Meets Novelty: Dual-Stable Periodic Optimization for Exploratory Recommendation [6.663356205396985]
大規模言語モデル(LLM)は、その多様なコンテンツ生成能力でポテンシャルを示す。
既存のLLM拡張デュアルモデルフレームワークには2つの大きな制限がある。
まず、グループアイデンティティによって引き起こされる長期的な嗜好を見落とし、関心モデリングのバイアスにつながる。
第二に、1回のアライメントプロセスでは、クローズドループ最適化にインクリメンタルなユーザデータを活用することができないため、静的な最適化の欠陥に悩まされる。
論文 参考訳(メタデータ) (2025-08-01T09:10:56Z) - A Novel Self-Evolution Framework for Large Language Models [18.62332474172811]
本稿では,ユーザの嗜好適応とドメイン固有能力を協調的に最適化する新しいDual-Phase Self-Evolutionフレームワークを提案する。
一般的なNLPベンチマークと長期対話タスクによる実験は、DPSEが常にSupervised Fine-Tuning、Preference Optimization、Memory-Augmented baselinesより優れていることを示している。
論文 参考訳(メタデータ) (2025-07-21T06:30:39Z) - RecLLM-R1: A Two-Stage Training Paradigm with Reinforcement Learning and Chain-of-Thought v1 [20.92548890511589]
本稿では,Large Language Models(LLM)を利用したレコメンデーションフレームワークであるRecLLM-R1を紹介する。
RecLLM-R1は、精度、多様性、新規性など、さまざまな評価指標において、既存のベースラインメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2025-06-24T01:39:34Z) - Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。
DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。
理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-05T23:54:53Z) - Large Language Model Empowered Recommendation Meets All-domain Continual Pre-Training [60.38082979765664]
CPRecは、レコメンデーションのための全ドメイン連続事前トレーニングフレームワークである。
LLMを連続的な事前学習パラダイムを通じて、普遍的なユーザ行動と整合させる。
2つの異なるプラットフォームから5つの実世界のデータセットを実験する。
論文 参考訳(メタデータ) (2025-04-11T20:01:25Z) - IMPROVE: Iterative Model Pipeline Refinement and Optimization Leveraging LLM Experts [40.98057887166546]
機械学習のワークフローを自動化するための有望なソリューションとして、大規模言語モデル(LLM)エージェントが登場した。
LLM駆動のMLパイプライン設計のための新しい戦略であるIterative Refinementを紹介します。
実際のトレーニングフィードバックに基づいて個々のコンポーネントを体系的に更新することにより、イテレーティブリファインメントはモデル全体のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2025-02-25T01:52:37Z) - LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。