論文の概要: Enhanced Whole Page Optimization via Mixed-Grained Reward Mechanism-Adapted Language Models
- arxiv url: http://arxiv.org/abs/2506.09084v1
- Date: Tue, 10 Jun 2025 08:05:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.667252
- Title: Enhanced Whole Page Optimization via Mixed-Grained Reward Mechanism-Adapted Language Models
- Title(参考訳): 混合グラインド・リワード機構適応言語モデルによる全ページ最適化
- Authors: Xinyuan Wang, Liang Wu, Yanjie Fu,
- Abstract要約: 本稿では,ページレベルの報酬とアイテムレベルの報酬を混合した,報酬に基づく微調整手法を提案する。
PageLLMはベースラインを上回り、1000万人以上のオンラインA/Bテストで0.44%のGMVアップを達成した。
- 参考スコア(独自算出の注目度): 21.43957709683293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing the presentation of search and recommendation results is crucial to enhancing user experience and engagement. Whole Page Optimization (WPO) plays a pivotal role in this process, as it directly influences how information is surfaced to users. While Pre-trained Large Language Models (LLMs) have demonstrated remarkable capabilities in generating coherent and contextually relevant content, fine-tuning these models for complex tasks like WPO presents challenges. Specifically, the need for extensive human-annotated data to mitigate issues such as hallucinations and model instability can be prohibitively expensive, especially in large-scale systems that interact with millions of items daily. In this work, we address the challenge of fine-tuning LLMs for WPO by using user feedback as the supervision. Unlike manually labeled datasets, user feedback is inherently noisy and less precise. To overcome this, we propose a reward-based fine-tuning approach, PageLLM, which employs a mixed-grained reward mechanism that combines page-level and item-level rewards. The page-level reward evaluates the overall quality and coherence, while the item-level reward focuses on the accuracy and relevance of key recommendations. This dual-reward structure ensures that both the holistic presentation and the critical individual components are optimized. We validate PageLLM on both public and industrial datasets. PageLLM outperforms baselines and achieves a 0.44\% GMV increase in an online A/B test with over 10 million users, demonstrating its real-world impact.
- Abstract(参考訳): ユーザエクスペリエンスとエンゲージメントを高めるためには,検索とレコメンデーションの結果の提示の最適化が不可欠である。
WPO(Whole Page Optimization)はこのプロセスにおいて重要な役割を担っている。
事前訓練された大規模言語モデル(LLM)は、一貫性とコンテキストに関連のあるコンテンツを生成する際、顕著な能力を示してきたが、WPOのような複雑なタスクのためにこれらのモデルを微調整することは困難である。
具体的には、幻覚やモデル不安定といった問題を緩和するために、人間に注釈を付けた広範なデータが必要であることは、特に毎日何百万ものアイテムと対話する大規模システムにおいて、違法にコストがかかる可能性がある。
本稿では,ユーザフィードバックを監視対象として利用することで,WPOのための微調整 LLM の課題に対処する。
手動でラベル付けされたデータセットとは異なり、ユーザからのフィードバックは本質的にノイズが多く、正確ではない。
そこで本研究では,ページレベルの報酬とアイテムレベルの報酬を混合した報酬機構を用いた,報酬に基づく微調整手法であるPageLLMを提案する。
ページレベルの報酬は全体的な品質と一貫性を評価し、アイテムレベルの報酬はキーレコメンデーションの正確性と関連性に焦点を当てる。
この双対逆構造は、全体論的なプレゼンテーションと臨界個々のコンポーネントの両方が最適化されることを保証する。
パブリックおよびインダストリアル両方のデータセット上でPageLLMを検証する。
PageLLMはベースラインを上回り、1000万人以上のユーザによるオンラインA/Bテストで0.44\%のGMVアップを達成した。
関連論文リスト
- End-to-End Personalization: Unifying Recommender Systems with Large Language Models [0.0]
グラフ注意ネットワーク(GAT)と大言語モデル(LLM)を組み合わせた新しいハイブリッドレコメンデーションフレームワークを提案する。
LLMは、タイトル、ジャンル、概要などのメタデータに基づいて意味的に意味のあるプロファイルを生成することによって、ユーザーとアイテムの表現を豊かにするために最初に使用される。
MovieLens 100kと1Mを含むベンチマークデータセットでモデルを評価し、強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-08-02T22:46:50Z) - RecGPT Technical Report [57.84251629878726]
本稿では,レコメンデーションパイプラインの中心にユーザの意図を配置する次世代フレームワークRecGPTを提案する。
RecGPTは、大きな言語モデルをユーザ関心のマイニング、アイテム検索、説明生成のキーステージに統合する。
オンライン実験では、RecGPTが利害関係者間で一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-07-30T17:55:06Z) - Multi-agents based User Values Mining for Recommendation [52.26100802380767]
効率的なユーザ値抽出のためのゼロショットマルチLLM協調フレームワークを提案する。
本研究は,本質的な意味を保ちながら,項目内容のコンデンスにテキスト要約手法を適用した。
幻覚を緩和するために,評価役と監督役の2つの特殊エージェントの役割を導入する。
論文 参考訳(メタデータ) (2025-05-02T04:01:31Z) - Reasoning LLMs for User-Aware Multimodal Conversational Agents [3.533721662684487]
社会ロボティクスにおけるパーソナライゼーションは、効果的な人間とロボットの相互作用を促進するために重要である。
本稿では,ユーザ認識型対話エージェントのための新しいフレームワークUSER-LLM R1を提案する。
提案手法では,チェーン・オブ・シンク(CoT)推論モデルを統合し,ユーザの好みや視覚言語モデルを反復的に推測する。
論文 参考訳(メタデータ) (2025-04-02T13:00:17Z) - FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users [111.56469697145519]
メタ学習問題として報酬モデルを再設計するFew-Shot Preference Optimizationを提案する。
このフレームワークでは、LDMはそのユーザからいくつかのラベル付けされた好みを通じてユーザへの迅速な適応を学び、パーソナライズされた報酬関数を構築する。
公開されているLLMを用いて100万以上の合成パーソナライズされた好みを生成する。
本研究は,映画レビュー,教育背景に基づく教育適応,一般質問応答の3分野を対象に,最大1,500人の総合ユーザを対象に,パーソナライズされたオープンエンド世代に対するFSPOの評価を行った。
論文 参考訳(メタデータ) (2025-02-26T17:08:46Z) - Systematic Reward Gap Optimization for Mitigating VLM Hallucinations [34.71750379630014]
本稿では,報酬ギャップ構成の体系的最適化を目的とした新しいフレームワークであるトピックレベルの参照書き換え(TPR)を紹介する。
TPRは、詳細なセマンティック詳細をトピックレベルに制御し、高度なデータキュレーション戦略を可能にする。
ObjectHal-Benchでは幻覚を最大93%減少させ、堅牢で費用対効果の高いVLMアライメントに対して優れたデータ効率を示す。
論文 参考訳(メタデータ) (2024-11-26T09:42:07Z) - Pistis-RAG: Enhancing Retrieval-Augmented Generation with Human Feedback [41.88662700261036]
RAGシステムは、セマンティックな関連性だけでは生成品質の向上を保証していない場合に制限に直面している。
我々は、LLMと人間の嗜好をよりよく整合させるために、コンテンツ中心のアプローチで設計された新しいRAGフレームワークであるPristis-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-21T08:52:11Z) - Persona-DB: Efficient Large Language Model Personalization for Response Prediction with Collaborative Data Refinement [79.2400720115588]
本稿では,タスクコンテキスト間の一般化を改善するための階層的な構築プロセスからなる,シンプルで効果的なフレームワークであるPersona-DBを紹介する。
応答予測の評価において,Persona-DB は精度を著しく低減した検索サイズで維持する上で,より優れたコンテキスト効率を示す。
我々の実験は、ユーザーが極めて少ないデータを持つ場合、コールドスタートシナリオで10%以上の顕著な改善が示されていることも示している。
論文 参考訳(メタデータ) (2024-02-16T20:20:43Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z) - Adapting LLMs for Efficient, Personalized Information Retrieval: Methods
and Implications [0.7832189413179361]
LLM(Large Language Models)は、人間に似たテキストの理解と生成に優れた言語モデルである。
本稿では,言語モデル(LLM)と情報検索(IR)システムの統合戦略について検討する。
論文 参考訳(メタデータ) (2023-11-21T02:01:01Z) - Interactive Hyperparameter Optimization in Multi-Objective Problems via
Preference Learning [65.51668094117802]
我々は多目的機械学習(ML)に適した人間中心型対話型HPO手法を提案する。
ユーザが自分のニーズに最も適した指標を推測する代わりに、私たちのアプローチは自動的に適切な指標を学習します。
論文 参考訳(メタデータ) (2023-09-07T09:22:05Z) - ICPE: An Item Cluster-Wise Pareto-Efficient Framework for Recommendation Debiasing [7.100121083949393]
そこで本研究では,クラスタ単位の多目的最適化の観点から,推薦の偏りの中心的テーマについて検討する。
トレーニングプロセスで人気が異なるさまざまなアイテムクラスタ上での学習のバランスをとることを目的とした,モデルに依存しないフレームワークであるItem Cluster-Wiseを提案する。
より詳しくは、推奨モデルが人気が異なるすべてのアイテムクラスタのバランスをとるべきであるとして、アイテムクラスタの最適化ターゲットを定義します。
論文 参考訳(メタデータ) (2021-09-27T09:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。