論文の概要: Goal-Conditioned Supervised Learning for Multi-Objective Recommendation
- arxiv url: http://arxiv.org/abs/2412.08911v1
- Date: Thu, 12 Dec 2024 03:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:34:28.315469
- Title: Goal-Conditioned Supervised Learning for Multi-Objective Recommendation
- Title(参考訳): 多目的レコメンデーションのためのゴールコンディション付き指導学習
- Authors: Shijun Li, Hilaf Hasson, Jing Hu, Joydeep Ghosh,
- Abstract要約: 多目的学習は、一つのモデルを用いて複数の目的を同時に最適化する。
本稿では,オフラインシーケンシャルデータから複数の目標を自動学習する多目的目標定義型監視学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.593384839118658
- License:
- Abstract: Multi-objective learning endeavors to concurrently optimize multiple objectives using a single model, aiming to achieve high and balanced performance across these diverse objectives. However, it often involves a more complex optimization problem, particularly when navigating potential conflicts between objectives, leading to solutions with higher memory requirements and computational complexity. This paper introduces a Multi-Objective Goal-Conditioned Supervised Learning (MOGCSL) framework for automatically learning to achieve multiple objectives from offline sequential data. MOGCSL extends the conventional Goal-Conditioned Supervised Learning (GCSL) method to multi-objective scenarios by redefining goals from one-dimensional scalars to multi-dimensional vectors. The need for complex architectures and optimization constraints can be naturally eliminated. MOGCSL benefits from filtering out uninformative or noisy instances that do not achieve desirable long-term rewards. It also incorporates a novel goal-choosing algorithm to model and select "high" achievable goals for inference. While MOGCSL is quite general, we focus on its application to the next action prediction problem in commercial-grade recommender systems. In this context, any viable solution needs to be reasonably scalable and also be robust to large amounts of noisy data that is characteristic of this application space. We show that MOGCSL performs admirably on both counts. Specifically, extensive experiments conducted on real-world recommendation datasets validate its efficacy and efficiency. Also, analysis and experiments are included to explain its strength in discounting the noisier portions of training data in recommender systems.
- Abstract(参考訳): 多目的学習は単一のモデルを用いて複数の目的を同時に最適化し、これらの多様な目的に対して高いバランスの取れた性能を達成することを目的としている。
しかし、特に目的間の潜在的な衝突をナビゲートする際には、より複雑な最適化問題が発生し、より高いメモリ要求と計算複雑性のソリューションがもたらされる。
本稿では,オフラインシーケンシャルデータから複数の目標を自動学習するMOGCSL(Multi-Objective Goal-Conditioned Supervised Learning)フレームワークを提案する。
MOGCSL は従来の Goal-Conditioned Supervised Learning (GCSL) 法を, 1次元スカラーから多次元ベクトルへの目標の再定義により,多目的シナリオに拡張する。
複雑なアーキテクチャや最適化の制約は自然に排除できる。
MOGCSLは、望ましい長期報酬を達成できない非形式的またはノイズの多いインスタンスをフィルタリングする利点がある。
また、推論のための「高い」達成可能な目標をモデル化し、選択するための新しいゴール選択アルゴリズムも組み込まれている。
MOGCSLは非常に一般的であるが、商業グレードのレコメンデーションシステムにおける次のアクション予測問題への応用に焦点をあてる。
この文脈では、任意の実行可能なソリューションは、合理的にスケーラブルであり、また、このアプリケーション空間に特徴的な大量のノイズの多いデータに対して堅牢である必要があります。
両カウントでMOGCSLが良好に動作することを示す。
具体的には、実世界のレコメンデーションデータセットで実施された広範な実験により、その有効性と効率が検証された。
また、リコメンデータシステムにおけるトレーニングデータのノイズ部分の低減効果を説明するために、分析と実験も含んでいる。
関連論文リスト
- Benchmarking General-Purpose In-Context Learning [19.40952728849431]
In-context Learning (ICL) は、生成モデルに新しいタスクを効果的に、かつ効率的にオンザフライで対処する権限を与える。
本稿では,より広い範囲の課題に対処するためのICLの拡張について検討する。
GPICLの機能のトレーニングと評価に特化して開発されたベンチマークを2つ導入する。
論文 参考訳(メタデータ) (2024-05-27T14:50:42Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Unified Algorithms for RL with Decision-Estimation Coefficients: PAC, Reward-Free, Preference-Based Learning, and Beyond [28.118197762236953]
我々は,大規模な学習目標のための統一的なアルゴリズムフレームワークを開発する。
我々のフレームワークは、非回帰RL、PAC RL、報酬なし学習、モデル推定、嗜好に基づく学習など、多くの学習目標を処理する。
応用として、一般化されたDECを有界化するための自然な十分条件として「分解可能表現」を提案する。
論文 参考訳(メタデータ) (2022-09-23T17:47:24Z) - Learning Multi-Objective Curricula for Deep Reinforcement Learning [55.27879754113767]
深部強化学習(DRL)のサンプル効率と最終性能を向上させるために,各種自動カリキュラム学習(ACL)手法が提案されている。
本稿では,多目的だがコヒーレントなカリキュラムを作成するための統合された自動カリキュラム学習フレームワークを提案する。
既存の手設計のカリキュラムパラダイムに加えて,抽象カリキュラムを学習するためのフレキシブルなメモリ機構を設計する。
論文 参考訳(メタデータ) (2021-10-06T19:30:25Z) - From STL Rulebooks to Rewards [4.859570041295978]
本稿では,多目的の強化学習のための報酬形成のための原則的アプローチを提案する。
まずSTLに新しい定量的セマンティクスを組み、個々の要求を自動的に評価する。
次に,複数の要件の評価を1つの報酬に体系的に組み合わせる手法を開発した。
論文 参考訳(メタデータ) (2021-10-06T14:16:59Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - A Distributional View on Multi-Objective Policy Optimization [24.690800846837273]
大規模不変な方法で目的の好みを設定することができる多目的強化学習アルゴリズムを提案する。
フレームワーク内で異なる好みを設定することで、非支配的なソリューションの空間を追跡できることを示す。
論文 参考訳(メタデータ) (2020-05-15T13:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。