論文の概要: Future-Conditioned Recommendations with Multi-Objective Controllable Decision Transformer
- arxiv url: http://arxiv.org/abs/2501.07212v1
- Date: Mon, 13 Jan 2025 11:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:20:19.067216
- Title: Future-Conditioned Recommendations with Multi-Objective Controllable Decision Transformer
- Title(参考訳): 多目的制御可能決定変換器による今後の提案
- Authors: Chongming Gao, Kexin Huang, Ziang Fei, Jiaju Chen, Jiawei Chen, Jianshan Sun, Shuchang Liu, Qingpeng Cai, Peng Jiang,
- Abstract要約: 現在のレコメンデーション戦略には、2つの大きなハードルがある。
我々は、多目的制御可能なレコメンデーションのための将来条件付き戦略を導入する。
複数の目的から項目列へのマッピングを自律的に学習できるオフライン強化学習(RL)モデルであるMulti-Objective Controllable Decision Transformer (MocDT)を提案する。
- 参考スコア(独自算出の注目度): 12.252515483035737
- License:
- Abstract: Securing long-term success is the ultimate aim of recommender systems, demanding strategies capable of foreseeing and shaping the impact of decisions on future user satisfaction. Current recommendation strategies grapple with two significant hurdles. Firstly, the future impacts of recommendation decisions remain obscured, rendering it impractical to evaluate them through direct optimization of immediate metrics. Secondly, conflicts often emerge between multiple objectives, like enhancing accuracy versus exploring diverse recommendations. Existing strategies, trapped in a "training, evaluation, and retraining" loop, grow more labor-intensive as objectives evolve. To address these challenges, we introduce a future-conditioned strategy for multi-objective controllable recommendations, allowing for the direct specification of future objectives and empowering the model to generate item sequences that align with these goals autoregressively. We present the Multi-Objective Controllable Decision Transformer (MocDT), an offline Reinforcement Learning (RL) model capable of autonomously learning the mapping from multiple objectives to item sequences, leveraging extensive offline data. Consequently, it can produce recommendations tailored to any specified objectives during the inference stage. Our empirical findings emphasize the controllable recommendation strategy's ability to produce item sequences according to different objectives while maintaining performance that is competitive with current recommendation strategies across various objectives.
- Abstract(参考訳): 長期的な成功の確保は、システム推奨の究極の目標であり、将来のユーザ満足度に対する意思決定の影響を予見し、形作ることのできる戦略を要求します。
現在のレコメンデーション戦略には、2つの大きなハードルがある。
第一に、リコメンデーション決定の将来の影響はあいまいであり、即時メトリクスを直接最適化することでそれらを評価するのは現実的ではない。
第2に、正確性の向上や多様なレコメンデーションの探索といった、複数の目的の衝突がしばしば発生する。
既存の戦略は「訓練、評価、再訓練」ループに閉じ込められ、目的が進化するにつれてより労働集約的に成長する。
これらの課題に対処するために、我々は、多目的制御可能なレコメンデーションのための将来の条件付き戦略を導入し、将来の目的を直接指定し、モデルがこれらの目標を自己回帰的に整合するアイテムシーケンスを生成する権限を与える。
多目的制御可能決定変換器(Multi-Objective Controllable Decision Transformer, MocDT)は、多目的からアイテムシーケンスへのマッピングを自律的に学習し、広範囲なオフラインデータを活用するオフライン強化学習(RL)モデルである。
これにより、推論段階で特定の目的に合わせたレコメンデーションを作成できる。
実証的な知見は、様々な目的において、現在のレコメンデーション戦略と競合する性能を維持しつつ、異なる目的に応じてアイテムシーケンスを生成できる制御可能なレコメンデーション戦略の能力を強調した。
関連論文リスト
- Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment [69.11529841118671]
本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。
次にReasoningを利用したRecommenderフレームワークを導入する。
論文 参考訳(メタデータ) (2025-02-04T07:17:54Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。
既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文 参考訳(メタデータ) (2024-07-04T02:19:49Z) - Contrastive Learning Method for Sequential Recommendation based on Multi-Intention Disentanglement [5.734747179463411]
MIDCL(Multi-Intention Disentanglement)に基づくコントラスト学習シーケンシャルレコメンデーション手法を提案する。
私たちの仕事では、意図は動的で多様なものとして認識され、ユーザの振る舞いは、しばしば現在のマルチインテンションによって駆動されます。
本稿では,最も関連性の高いユーザの対話的意図の探索と,正のサンプル対の相互情報の最大化のための2種類のコントラスト学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-28T15:13:36Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Diffused Task-Agnostic Milestone Planner [13.042155799536657]
本稿では,拡散に基づく生成系列モデルを用いて,潜在空間における一連のマイルストーンを計画する手法を提案する。
提案手法は,マイルストーンの制御関連低次元潜在表現を学習し,長期計画と視覚に基づく制御を効率的に行うことができる。
論文 参考訳(メタデータ) (2023-12-06T10:09:22Z) - GOPlan: Goal-conditioned Offline Reinforcement Learning by Planning with Learned Models [31.628341050846768]
ゴール条件付きオフライン計画(GOPlan)は、2つの重要なフェーズを含む新しいモデルベースのフレームワークである。
GOPlanは、マルチゴールデータセット内のマルチモーダルアクション分布をキャプチャ可能な事前ポリシーを事前トレーニングする。
本手法は,軌道内目標と軌道間目標の両方の学習モデルを用いて,高品質な仮想データを生成する。
論文 参考訳(メタデータ) (2023-10-30T21:19:52Z) - Fisher-Weighted Merge of Contrastive Learning Models in Sequential
Recommendation [0.0]
我々は、まず、フィッシャー・マージング法をシークエンシャル・レコメンデーションに適用し、それに関連する実践的な課題に対処し、解決する。
提案手法の有効性を実証し, シーケンシャルラーニングおよびレコメンデーションシステムにおける最先端化の可能性を明らかにする。
論文 参考訳(メタデータ) (2023-07-05T05:58:56Z) - Choosing the Best of Both Worlds: Diverse and Novel Recommendations
through Multi-Objective Reinforcement Learning [68.45370492516531]
本稿では,Recommender Systems (RS) 設定のための拡張多目的強化学習(SMORL)を紹介する。
SMORLエージェントは、標準レコメンデーションモデルを拡張し、RLレイヤーを追加し、3つの主要な目的(正確性、多様性、新しいレコメンデーション)を同時に満たすように強制する。
実世界の2つのデータセットに対する実験結果から,集約的多様性の顕著な増加,精度の適度な向上,レコメンデーションの反復性の低下,および相補的目的としての多様性と新規性の強化の重要性が示された。
論文 参考訳(メタデータ) (2021-10-28T13:22:45Z) - Sequential Recommendation with Self-Attentive Multi-Adversarial Network [101.25533520688654]
逐次レコメンデーションにおける文脈情報の影響を明示的にモデル化するためのMFGAN(Multi-Factor Generative Adversarial Network)を提案する。
当社のフレームワークは,複数種類の因子情報を組み込むことが柔軟であり,各因子が推奨決定にどのように貢献するかを時間とともに追跡することができる。
論文 参考訳(メタデータ) (2020-05-21T12:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。