論文の概要: When Relevance Meets Novelty: Dual-Stable Periodic Optimization for Exploratory Recommendation
- arxiv url: http://arxiv.org/abs/2508.00450v1
- Date: Fri, 01 Aug 2025 09:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.811663
- Title: When Relevance Meets Novelty: Dual-Stable Periodic Optimization for Exploratory Recommendation
- Title(参考訳): Relevanceが新奇性に出会ったとき: 二重安定周期最適化による探索的勧告
- Authors: Hongxiang Lin, Hao Guo, Zeshun Li, Erpeng Xue, Yongqian He, Xiangyu Hou, Zhaoyu Hu, Lei Wang, Sheng Chen,
- Abstract要約: 大規模言語モデル(LLM)は、その多様なコンテンツ生成能力でポテンシャルを示す。
既存のLLM拡張デュアルモデルフレームワークには2つの大きな制限がある。
まず、グループアイデンティティによって引き起こされる長期的な嗜好を見落とし、関心モデリングのバイアスにつながる。
第二に、1回のアライメントプロセスでは、クローズドループ最適化にインクリメンタルなユーザデータを活用することができないため、静的な最適化の欠陥に悩まされる。
- 参考スコア(独自算出の注目度): 6.663356205396985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional recommendation systems tend to trap users in strong feedback loops by excessively pushing content aligned with their historical preferences, thereby limiting exploration opportunities and causing content fatigue. Although large language models (LLMs) demonstrate potential with their diverse content generation capabilities, existing LLM-enhanced dual-model frameworks face two major limitations: first, they overlook long-term preferences driven by group identity, leading to biased interest modeling; second, they suffer from static optimization flaws, as a one-time alignment process fails to leverage incremental user data for closed-loop optimization. To address these challenges, we propose the Co-Evolutionary Alignment (CoEA) method. For interest modeling bias, we introduce Dual-Stable Interest Exploration (DSIE) module, jointly modeling long-term group identity and short-term individual interests through parallel processing of behavioral sequences. For static optimization limitations, we design a Periodic Collaborative Optimization (PCO) mechanism. This mechanism regularly conducts preference verification on incremental data using the Relevance LLM, then guides the Novelty LLM to perform fine-tuning based on the verification results, and subsequently feeds back the output of the incrementally fine-tuned Novelty LLM to the Relevance LLM for re-evaluation, thereby achieving a dynamic closed-loop optimization. Extensive online and offline experiments verify the effectiveness of the CoEA model in exploratory recommendation.
- Abstract(参考訳): 従来のレコメンデーションシステムは、履歴的嗜好に沿ったコンテンツを過度にプッシュすることで、ユーザを強いフィードバックループに閉じ込め、探索機会を制限し、コンテンツ疲労を引き起こす傾向にある。
大規模言語モデル(LLM)は、多種多様なコンテンツ生成機能を持つ可能性を示しているが、既存のLLM強化のデュアルモデルフレームワークには、グループアイデンティティによって引き起こされる長期的嗜好を見逃し、バイアスのある関心モデリングに繋がる、静的な最適化の欠陥に悩まされる、そして1回アライメントプロセスがクローズドループ最適化のためにインクリメンタルなユーザーデータを活用するのに失敗する、という2つの大きな制限がある。
これらの課題に対処するため、我々はCo-Evolutionary Alignment(CoEA)法を提案する。
興味モデリングバイアスとして、動作シーケンスの並列処理を通じて、長期グループアイデンティティと短期個人利害関係を共同でモデル化する、Dual-Stable Interest Exploration (DSIE)モジュールを導入する。
静的な最適化の限界に対して、周期的協調最適化(PCO)機構を設計する。
この機構は、レバレンスLSMを用いたインクリメンタルデータに対する優先検証を定期的に行い、検証結果に基づいてノベルティLSMを微調整するよう誘導し、その後、インクリメンタルに微調整されたノベルティLMの出力をレバレンスLMにフィードバックして再評価し、動的閉ループ最適化を実現する。
大規模なオンラインおよびオフライン実験は、探索的勧告においてCoEAモデルの有効性を検証する。
関連論文リスト
- A Novel Self-Evolution Framework for Large Language Models [18.62332474172811]
本稿では,ユーザの嗜好適応とドメイン固有能力を協調的に最適化する新しいDual-Phase Self-Evolutionフレームワークを提案する。
一般的なNLPベンチマークと長期対話タスクによる実験は、DPSEが常にSupervised Fine-Tuning、Preference Optimization、Memory-Augmented baselinesより優れていることを示している。
論文 参考訳(メタデータ) (2025-07-21T06:30:39Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Modality-Balancing Preference Optimization of Large Multimodal Models by Adversarial Negative Mining [66.54211199959298]
LMMにおけるモダリティの不均衡に対処するため、新しい選好学習フレームワークMBPOを提案する。
MBPOは、強い負の反応、すなわちLLMバイアスによって誤った反応を生成することによって、より効果的なオフライン嗜好データセットを構築する。
視覚言語課題におけるLMM性能を高め、幻覚を効果的に軽減することができる。
論文 参考訳(メタデータ) (2025-05-20T03:59:05Z) - LLMInit: A Free Lunch from Large Language Models for Selective Initialization of Recommendation [34.227734210743904]
協調フィルタリングモデルは、レコメンデーションシステムのためのユーザ-イテムインタラクションをキャプチャする上で、強力なパフォーマンスを示している。
GPTやLLaMAのような大規模言語モデル(LLM)の出現は、レコメンデーションパフォーマンスを向上する新たな可能性を示している。
論文 参考訳(メタデータ) (2025-03-03T18:41:59Z) - Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - Beyond Inter-Item Relations: Dynamic Adaption for Enhancing LLM-Based Sequential Recommendation [83.87767101732351]
逐次リコメンデータシステム(SRS)は,ユーザの過去のインタラクションシーケンスに基づいて,ユーザが好む次の項目を予測する。
様々なAIアプリケーションにおける大規模言語モデル(LLM)の台頭に触発されて、LLMベースのSRSの研究が急増している。
我々は,大きめの粒度適応の上に構築された逐次レコメンデーションモデルであるDARecを提案する。
論文 参考訳(メタデータ) (2024-08-14T10:03:40Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - CALRec: Contrastive Alignment of Generative LLMs for Sequential Recommendation [18.986613405565514]
大規模言語モデル(LLM)は、シーケンシャルなレコメンデーションのために大量のテキストコーパスで事前訓練される。
本稿では,2つの対照的な損失と言語モデリング損失を混合して,事前学習したLLMを2tower方式で微調整する2段階のLLMファインタニングフレームワークを提案する。
我々のモデルは、多くの最先端のベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2024-05-03T18:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。