Fugu-MT 論文翻訳(概要): Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems

論文の概要: Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems

arxiv url: http://arxiv.org/abs/2407.03580v2
Date: Tue, 09 Jul 2024 18:54:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 03:17:58.496022
Title: Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems
Title（参考訳）: 多目的レコメンダシステムのためのディープパレート強化学習
Authors: Pan Li, Alexander Tuzhilin,
Abstract要約: 複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
参考スコア（独自算出の注目度）: 60.91599969408029
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Optimizing multiple objectives simultaneously is an important task for recommendation platforms to improve their performance. However, this task is particularly challenging since the relationships between different objectives are heterogeneous across different consumers and dynamically fluctuating according to different contexts. Especially in those cases when objectives become conflicting with each other, the result of recommendations will form a pareto-frontier, where the improvements of any objective comes at the cost of a performance decrease of another objective. Existing multi-objective recommender systems do not systematically consider such dynamic relationships; instead, they balance between these objectives in a static and uniform manner, resulting in only suboptimal multi-objective recommendation performance. In this paper, we propose a Deep Pareto Reinforcement Learning (DeepPRL) approach, where we (1) comprehensively model the complex relationships between multiple objectives in recommendations; (2) effectively capture personalized and contextual consumer preference for each objective to provide better recommendations; (3) optimize both the short-term and the long-term performance of multi-objective recommendations. As a result, our method achieves significant pareto-dominance over the state-of-the-art baselines in the offline experiments. Furthermore, we conducted a controlled experiment at the video streaming platform of Alibaba, where our method simultaneously improved three conflicting business objectives over the latest production system significantly, demonstrating its tangible economic impact in practice.
Abstract（参考訳）: 複数の目標を同時に最適化することは、レコメンデーションプラットフォームがパフォーマンスを改善するための重要なタスクである。しかし、異なる目的間の関係は異なる消費者間で不均一であり、異なるコンテキストに応じて動的に変動するため、この課題は特に困難である。特に、目的が相反するケースでは、推奨の結果がパレトフロンティアを形成します。既存のマルチオブジェクトレコメンデータシステムは、そのような動的関係を体系的に考慮せず、静的かつ均一な方法でこれらの目的のバランスを保ち、結果として、最適でないマルチオブジェクトレコメンデータのパフォーマンスのみが達成される。本稿では,(1)勧告における複数の目的間の複雑な関係を包括的にモデル化するDeep Pareto Reinforcement Learning (DeepPRL)アプローチを提案する。その結果,本手法はオフライン実験における最先端のベースラインに対するパレート優位性を実現している。さらに,アリババの動画ストリーミングプラットフォームにおいて,最新の生産システムに対して競合する3つのビジネス目標を同時に改善し,その実践における具体的な経済効果を実証する制御実験を行った。

関連論文リスト

Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文参考訳（メタデータ） (2025-03-21T16:49:38Z)
Self-Improvement Towards Pareto Optimality: Mitigating Preference Conflicts in Multi-Objective Alignment [74.25832963097658]
マルチオブジェクトアライメント(MOA)は、応答を複数の人間の嗜好目標に合わせることを目的としている。 DPOをベースとしたMOAアプローチは、データに広範囲にわたる優先的対立に悩まされている。
論文参考訳（メタデータ） (2025-02-20T08:27:00Z)
Aligned Multi Objective Optimization [15.404668020811513]
機械学習の実践では、このような衝突が起こらないシナリオが数多く存在する。近年のマルチタスク学習,強化学習,LLMsトレーニングの成果から,多種多様な関連タスクが,目的物間のパフォーマンスを同時に向上する可能性が示唆された。我々は、アラインド多目的最適化フレームワークを導入し、この設定のための新しいアルゴリズムを提案し、それらの優れた性能の理論的保証を提供する。
論文参考訳（メタデータ） (2025-02-19T20:50:03Z)
Future-Conditioned Recommendations with Multi-Objective Controllable Decision Transformer [12.252515483035737]
現在のレコメンデーション戦略には、2つの大きなハードルがある。我々は、多目的制御可能なレコメンデーションのための将来条件付き戦略を導入する。複数の目的から項目列へのマッピングを自律的に学習できるオフライン強化学習(RL)モデルであるMulti-Objective Controllable Decision Transformer (MocDT)を提案する。
論文参考訳（メタデータ） (2025-01-13T11:12:43Z)
Learning Recommender Systems with Soft Target: A Decoupled Perspective [49.83787742587449]
そこで本研究では,ソフトラベルを活用することで,目的を2つの側面として捉えるために,分離されたソフトラベル最適化フレームワークを提案する。本稿では,ラベル伝搬アルゴリズムをモデル化したソフトラベル生成アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-09T04:20:15Z)
Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文参考訳（メタデータ） (2024-04-29T08:16:30Z)
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文参考訳（メタデータ） (2024-02-29T12:12:30Z)
Dynamic value alignment through preference aggregation of multiple objectives [0.0]
動的値アライメントの方法論として,アライメントすべき値が動的に変化する手法を提案する。本稿では,複数の目的に対応するためにDeep $Q$-Learningを拡張し,単純化した2脚交点上で評価する。
論文参考訳（メタデータ） (2023-10-09T17:07:26Z)
Alleviating Search Bias in Bayesian Evolutionary Optimization with Many Heterogeneous Objectives [9.139734850798124]
異種目的(HE-MOP)を用いた多目的最適化問題に対処する。高速な目的に対して探索バイアスを緩和する新たな獲得関数を提案する。提案アルゴリズムの有効性を,多目的・多目的のベンチマーク問題で検証することによって実証する。
論文参考訳（メタデータ） (2022-08-25T17:07:40Z)
Leveraging Trust for Joint Multi-Objective and Multi-Fidelity Optimization [0.0]
本稿では,ベイズ的多目的・多忠実度最適化(MOMF)に対する新しいアプローチについて検討する。複数目的とデータソースの同時最適化を支援するために,信頼度基準の革新的利用を提案する。本手法はプラズマ物理学や流体力学などの分野におけるシミュレーション問題の解法に適用可能である。
論文参考訳（メタデータ） (2021-12-27T20:55:26Z)
Choosing the Best of Both Worlds: Diverse and Novel Recommendations through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。 SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文参考訳（メタデータ） (2021-10-28T13:22:45Z)
Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文参考訳（メタデータ） (2020-06-19T20:49:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。