Fugu-MT 論文翻訳(概要): Multi-objective Learning to Rank by Model Distillation

論文の概要: Multi-objective Learning to Rank by Model Distillation

arxiv url: http://arxiv.org/abs/2407.07181v1
Date: Tue, 09 Jul 2024 18:49:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 01:09:51.879103
Title: Multi-objective Learning to Rank by Model Distillation
Title（参考訳）: モデル蒸留によるランクへの多目的学習
Authors: Jie Tang, Huiji Gao, Liwei He, Sanjeev Katariya,
Abstract要約: ランク付けのための多目的学習は、一次目的と二次目的のバランスをとるために広く研究されている。業界における伝統的なアプローチは、高価なパラメータチューニングを含むいくつかの課題に直面する。本稿では,Airbnbのエンドツーエンドランキングシステムを最適化した,多目的ランキングのための蒸留ベースのランキングソリューションを提案する。
参考スコア（独自算出の注目度）: 12.89698180841224
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In online marketplaces, search ranking's objective is not only to purchase or conversion (primary objective), but to also the purchase outcomes(secondary objectives), e.g. order cancellation(or return), review rating, customer service inquiries, platform long term growth. Multi-objective learning to rank has been widely studied to balance primary and secondary objectives. But traditional approaches in industry face some challenges including expensive parameter tuning leads to sub-optimal solution, suffering from imbalanced data sparsity issue, and being not compatible with ad-hoc objective. In this paper, we propose a distillation-based ranking solution for multi-objective ranking, which optimizes the end-to-end ranking system at Airbnb across multiple ranking models on different objectives along with various considerations to optimize training and serving efficiency to meet industry standards. We found it performs much better than traditional approaches, it doesn't only significantly increases primary objective by a large margin but also meet secondary objectives constraints and improve model stability. We also demonstrated the proposed system could be further simplified by model self-distillation. Besides this, we did additional simulations to show that this approach could also help us efficiently inject ad-hoc non-differentiable business objective into the ranking system while enabling us to balance our optimization objectives.
Abstract（参考訳）: オンラインマーケットプレースでは、検索ランキングの目的は、購入または変換(一次目的)だけでなく、購入結果(二次目的)、egオーダーキャンセル(またはリターン)、レビューレーティング、カスタマーサービス問い合わせ、プラットフォーム長期成長も目的としている。ランク付けのための多目的学習は、一次目的と二次目的のバランスをとるために広く研究されている。しかし、業界における従来のアプローチでは、高価なパラメータチューニングがサブ最適ソリューションにつながること、不均衡なデータ空間の問題に悩まされていること、アドホックな目的と互換性がないことなど、いくつかの課題に直面しています。本稿では,多目的ランキングのための蒸留法に基づくランキングソリューションを提案する。これはAirbnbのエンドツーエンドランキングシステムを,さまざまな目的の複数のランキングモデルにまたがって最適化し,トレーニングを最適化し,業界標準を満たすための効率性を提供する。従来のアプローチよりもはるかに優れたパフォーマンスを示しましたが、大きなマージンによって第一の目的を著しく増加させるだけでなく、第二の目的の制約を満たし、モデルの安定性を改善します。また, モデル自己蒸留法により, 提案システムをさらに単純化できることを実証した。さらに,本手法は,最適化目標のバランスを保ちながら,アドホックで非差別的なビジネス目標をランキングシステムに効率的に注入する上で有効であることを示すため,さらなるシミュレーションを行った。

関連論文リスト

HarmonRank: Ranking-aligned Multi-objective Ensemble for Live-streaming E-commerce Recommendation [17.992877606615533]
ライブストリーミングのeコマースは、購入とユーザーとストリームの双方のインタラクションのバランスをとるためのランキングメカニズムを必要とする。本稿では,複数目的のアンサンブルフレームワークであるHarmonRankを提案する。提案手法は,4億DAUのライブストリーミングEコマースレコメンデーションプラットフォームに完全デプロイされ,2%以上の購入率に寄与している。
論文参考訳（メタデータ） (2026-01-06T11:59:02Z)
Counteracting Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing [70.35701681177655]
自己改善は、大きな視覚言語モデルの推論能力を向上するための主流パラダイムとして現れてきた。本研究では,探索学習による自己改善プロセスにおいて,頭部再バランスを実現するための4つの効率的な戦略を提案する。我々の手法は視覚的推論能力を常に改善し、バニラ自己改善を平均3.86ポイント上回る。
論文参考訳（メタデータ） (2025-10-30T13:26:58Z)
Unilogit: Robust Machine Unlearning for LLMs Using Uniform-Target Self-Distillation [11.473623166484126]
本稿では、大規模言語モデルにおける機械学習のための新しい自己蒸留手法Unilogitを紹介する。 Unilogitはターゲットトークンの均一な確率を達成するためにターゲットロジットを動的に調整する。公開ベンチマークと社内Eコマースデータセットの実験は、Unilogitが目標を忘れたり維持したりする際の優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2025-05-09T13:19:09Z)
Offline Model-Based Optimization: Comprehensive Review [61.91350077539443]
オフライン最適化は、オフラインデータセットのみを使用してブラックボックス機能の最適化を目標とする、科学とエンジニアリングの基本的な課題である。モデルベース最適化の最近の進歩は、オフライン固有の代理モデルと生成モデルを開発するために、ディープニューラルネットワークの一般化能力を活用している。科学的な発見を加速させる効果が増大しているにもかかわらず、この分野は包括的なレビューを欠いている。
論文参考訳（メタデータ） (2025-03-21T16:35:02Z)
Rethinking Multi-Objective Learning through Goal-Conditioned Supervised Learning [8.593384839118658]
多目的学習は、1つのモデルで複数の目的を同時に最適化することを目的としている。正確な学習プロセスを形式化し実行することの難しさに悩まされる。本稿では,既存のシーケンシャルデータに基づいて,複数の目的を自動学習する汎用フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-12T03:47:40Z)
RankTower: A Synergistic Framework for Enhancing Two-Tower Pre-Ranking Model [0.0]
大規模ランキングシステムでは、効率性と効率性のバランスをとるためにカスケードアーキテクチャが広く採用されている。オンラインレイテンシの制約に従うために、効率性と精度のバランスを維持することは、プレグレードモデルにとって不可欠である。そこで我々は,ユーザとイテムのインタラクションを効率的に捉えるために,RangeTowerという新しいニューラルネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-07-17T08:07:37Z)
Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文参考訳（メタデータ） (2024-07-04T02:19:49Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文参考訳（メタデータ） (2024-02-29T12:12:30Z)
Learning Fair Ranking Policies via Differentiable Optimization of Ordered Weighted Averages [55.04219793298687]
本稿では,学習からランクへの学習ループに,効率よく解ける公正ランキングモデルを組み込む方法について述べる。特に,本論文は,OWA目標の制約された最適化を通じてバックプロパゲーションを行う方法を示す最初のものである。
論文参考訳（メタデータ） (2024-02-07T20:53:53Z)
Alleviating Search Bias in Bayesian Evolutionary Optimization with Many Heterogeneous Objectives [9.139734850798124]
異種目的(HE-MOP)を用いた多目的最適化問題に対処する。高速な目的に対して探索バイアスを緩和する新たな獲得関数を提案する。提案アルゴリズムの有効性を,多目的・多目的のベンチマーク問題で検証することによって実証する。
論文参考訳（メタデータ） (2022-08-25T17:07:40Z)
An Approach to Ordering Objectives and Pareto Efficient Solutions [0.0]
多目的最適化問題の解法は一般に比較や順序付けはできない。意思決定者はしばしば、スケールした目的を比較することができると信じている。確率積分変換を用いて問題の目的を全て同じ範囲のスコアにマッピングする手法を提案する。
論文参考訳（メタデータ） (2022-05-30T17:55:53Z)
Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文参考訳（メタデータ） (2022-02-08T20:42:14Z)
Sample-Rank: Weak Multi-Objective Recommendations Using Rejection Sampling [0.5156484100374059]
本稿では,マルチゴールサンプリングとユーザ関連度(Sample-Rank)のランク付けによるマーケットプレースの多目的目標への推薦手法を提案する。提案手法の新規性は,望まれるマルチゴール分布からサンプリングするMOレコメンデーション問題を低減し,プロダクションフレンドリーな学習-ランクモデルを構築することである。
論文参考訳（メタデータ） (2020-08-24T09:17:18Z)
Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文参考訳（メタデータ） (2020-06-17T03:58:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。