論文の概要: Multi-objective Learning to Rank by Model Distillation
- arxiv url: http://arxiv.org/abs/2407.07181v1
- Date: Tue, 09 Jul 2024 18:49:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 20:15:56.577936
- Title: Multi-objective Learning to Rank by Model Distillation
- Title(参考訳): モデル蒸留によるランクへの多目的学習
- Authors: Jie Tang, Huiji Gao, Liwei He, Sanjeev Katariya,
- Abstract要約: ランク付けのための多目的学習は、一次目的と二次目的のバランスをとるために広く研究されている。
業界における伝統的なアプローチは、高価なパラメータチューニングを含むいくつかの課題に直面する。
本稿では,Airbnbのエンドツーエンドランキングシステムを最適化した,多目的ランキングのための蒸留ベースのランキングソリューションを提案する。
- 参考スコア(独自算出の注目度): 12.89698180841224
- License:
- Abstract: In online marketplaces, search ranking's objective is not only to purchase or conversion (primary objective), but to also the purchase outcomes(secondary objectives), e.g. order cancellation(or return), review rating, customer service inquiries, platform long term growth. Multi-objective learning to rank has been widely studied to balance primary and secondary objectives. But traditional approaches in industry face some challenges including expensive parameter tuning leads to sub-optimal solution, suffering from imbalanced data sparsity issue, and being not compatible with ad-hoc objective. In this paper, we propose a distillation-based ranking solution for multi-objective ranking, which optimizes the end-to-end ranking system at Airbnb across multiple ranking models on different objectives along with various considerations to optimize training and serving efficiency to meet industry standards. We found it performs much better than traditional approaches, it doesn't only significantly increases primary objective by a large margin but also meet secondary objectives constraints and improve model stability. We also demonstrated the proposed system could be further simplified by model self-distillation. Besides this, we did additional simulations to show that this approach could also help us efficiently inject ad-hoc non-differentiable business objective into the ranking system while enabling us to balance our optimization objectives.
- Abstract(参考訳): オンラインマーケットプレースでは、検索ランキングの目的は、購入または変換(一次目的)だけでなく、購入結果(二次目的)、egオーダーキャンセル(またはリターン)、レビューレーティング、カスタマーサービス問い合わせ、プラットフォーム長期成長も目的としている。
ランク付けのための多目的学習は、一次目的と二次目的のバランスをとるために広く研究されている。
しかし、業界における従来のアプローチでは、高価なパラメータチューニングがサブ最適ソリューションにつながること、不均衡なデータ空間の問題に悩まされていること、アドホックな目的と互換性がないことなど、いくつかの課題に直面しています。
本稿では,多目的ランキングのための蒸留法に基づくランキングソリューションを提案する。これはAirbnbのエンドツーエンドランキングシステムを,さまざまな目的の複数のランキングモデルにまたがって最適化し,トレーニングを最適化し,業界標準を満たすための効率性を提供する。
従来のアプローチよりもはるかに優れたパフォーマンスを示しましたが、大きなマージンによって第一の目的を著しく増加させるだけでなく、第二の目的の制約を満たし、モデルの安定性を改善します。
また, モデル自己蒸留法により, 提案システムをさらに単純化できることを実証した。
さらに,本手法は,最適化目標のバランスを保ちながら,アドホックで非差別的なビジネス目標をランキングシステムに効率的に注入する上で有効であることを示すため,さらなるシミュレーションを行った。
関連論文リスト
- Rethinking Multi-Objective Learning through Goal-Conditioned Supervised Learning [8.593384839118658]
多目的学習は、1つのモデルで複数の目的を同時に最適化することを目的としている。
正確な学習プロセスを形式化し実行することの難しさに悩まされる。
本稿では,既存のシーケンシャルデータに基づいて,複数の目的を自動学習する汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-12T03:47:40Z) - Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。
既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文 参考訳(メタデータ) (2024-07-04T02:19:49Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Learning Fair Ranking Policies via Differentiable Optimization of
Ordered Weighted Averages [55.04219793298687]
本稿では,学習からランクへの学習ループに,効率よく解ける公正ランキングモデルを組み込む方法について述べる。
特に,本論文は,OWA目標の制約された最適化を通じてバックプロパゲーションを行う方法を示す最初のものである。
論文 参考訳(メタデータ) (2024-02-07T20:53:53Z) - Alleviating Search Bias in Bayesian Evolutionary Optimization with Many
Heterogeneous Objectives [9.139734850798124]
異種目的(HE-MOP)を用いた多目的最適化問題に対処する。
高速な目的に対して探索バイアスを緩和する新たな獲得関数を提案する。
提案アルゴリズムの有効性を,多目的・多目的のベンチマーク問題で検証することによって実証する。
論文 参考訳(メタデータ) (2022-08-25T17:07:40Z) - An Approach to Ordering Objectives and Pareto Efficient Solutions [0.0]
多目的最適化問題の解法は一般に比較や順序付けはできない。
意思決定者はしばしば、スケールした目的を比較することができると信じている。
確率積分変換を用いて問題の目的を全て同じ範囲のスコアにマッピングする手法を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:55:53Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Sample-Rank: Weak Multi-Objective Recommendations Using Rejection
Sampling [0.5156484100374059]
本稿では,マルチゴールサンプリングとユーザ関連度(Sample-Rank)のランク付けによるマーケットプレースの多目的目標への推薦手法を提案する。
提案手法の新規性は,望まれるマルチゴール分布からサンプリングするMOレコメンデーション問題を低減し,プロダクションフレンドリーな学習-ランクモデルを構築することである。
論文 参考訳(メタデータ) (2020-08-24T09:17:18Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。