論文の概要: GRADE: Personalized Multi-Task Fusion via Group-relative Reinforcement Learning with Adaptive Dirichlet Exploration
- arxiv url: http://arxiv.org/abs/2510.07919v2
- Date: Fri, 10 Oct 2025 03:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:46.896581
- Title: GRADE: Personalized Multi-Task Fusion via Group-relative Reinforcement Learning with Adaptive Dirichlet Exploration
- Title(参考訳): GRADE:適応ディリクレ探索によるグループ相対強化学習によるパーソナライズされたマルチタスクフュージョン
- Authors: Tingfeng Hong, Pingye Ren, Xinlong Xiao, Chao Wang, Chenyi Lei, Wenwu Ou, Han Li,
- Abstract要約: Adaptive Dirichlet Explorationを用いたグループ相対強化学習は、パーソナライズされたマルチタスク融合のための、新しくて堅牢なフレームワークである。
GRADEは、大規模なA/Bテストにおいて確立されたベースラインを著しく上回っている。
GRADEはKuaishouのマーケットプレース検索のシナリオに完全にデプロイされており、数億人のユーザーにサービスを提供している。
- 参考スコア(独自算出の注目度): 10.195151916351163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Balancing multiple objectives is critical for user satisfaction in modern recommender and search systems, yet current Multi-Task Fusion (MTF) methods rely on static, manually-tuned weights that fail to capture individual user intent. While Reinforcement Learning (RL) offers a path to personalization, traditional approaches often falter due to training instability and the sparse rewards inherent in these large-scale systems. To address these limitations, we propose Group-relative Reinforcement learning with Adaptive Dirichlet Exploration (GRADE), a novel and robust framework for personalized multi-task fusion. GRADE leverages a critic-free, Group Relative Policy Optimization (GRPO) paradigm, enabling stable and efficient policy learning by evaluating the relative performance of candidate weight groups. Its core innovations include employing the Dirichlet distribution for principled and structured exploration of the weight space, and a composite reward function that combines sparse user feedback with dense model priors and rule-based constraints to guide the search effectively. Deployed in the in-app marketplace of an application with over hundreds of millions daily active users, GRADE significantly outperforms established baselines, achieving substantial gains in rigorous large-scale A/B tests: +0.595\% in CTR, +1.193\% in CVR, +1.788\% in OPM, and +1.568\% in total order volume. Following its strong performance, GRADE has been fully deployed in the marketplace search scenario of Kuaishou, serving hundreds of millions of users.
- Abstract(参考訳): 現代のレコメンデータや検索システムでは、複数の目的のバランスをとることがユーザの満足度にとって重要であるが、現在のマルチタスクフュージョン(MTF)メソッドは、個々のユーザの意図を捉えない静的な手作業による重み付けに依存している。
強化学習(Reinforcement Learning, RL)はパーソナライズへの道を提供するが、従来のアプローチは、トレーニングの不安定性と、これらの大規模システムに固有のスパース報酬によって、しばしば混乱する。
これらの制約に対処するために,適応ディリクレ探索(GRADE)を用いたグループ相対強化学習を提案する。
GRADEは、批判のないグループ相対政策最適化(GRPO)パラダイムを活用し、候補重み群の相対的な性能を評価することによって、安定的で効率的な政策学習を可能にする。
その中核となる革新は、重量空間の原理的および構造的探索にディリクレ分布を用いることや、疎いユーザフィードバックと高密度モデルの事前と規則に基づく制約を組み合わせて探索を効果的に導く複合報酬関数である。
アプリケーション内のマーケットプレースに数億人のアクティブユーザを抱えるGRADEは、確立されたベースラインをはるかに上回り、厳格な大規模A/Bテストでは、+0.595\%、CVRでは+1.193\%、OPMでは+1.788\%、全注文数では+1.568\%という大きな利益を達成している。
強力なパフォーマンスの後、GRADEはKuaishouのマーケットプレース検索シナリオに完全にデプロイされ、数億人のユーザーにサービスを提供している。
関連論文リスト
- TAP: Two-Stage Adaptive Personalization of Multi-task and Multi-Modal Foundation Models in Federated Learning [37.79391516435725]
フェデレートラーニング(FL)は、必ずしも各クライアントのニーズに適合するとは限らない最終モデルを生成することが示されている。
文献のこのギャップに対処するために,2段階適応パーソナライゼーション(TAP)を提案する。
提案アルゴリズムは,多様なデータセットやタスクに対して,多数のベースラインに対して有効であることを示す。
論文 参考訳(メタデータ) (2025-09-30T17:01:32Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Personalized Multi-task Training for Recommender System [80.23030752707916]
PMTRecは、様々な情報ソースから包括的ユーザ/イテム埋め込みを得るための、最初のパーソナライズされたマルチタスク学習アルゴリズムである。
我々の貢献は、レコメンデーションシステムにおけるパーソナライズされたマルチタスクトレーニングを促進するための新しい道を開く。
論文 参考訳(メタデータ) (2024-07-31T06:27:06Z) - Leveraging Foundation Models for Multi-modal Federated Learning with Incomplete Modality [41.79433449873368]
我々は、事前学習完了(FedMVP)を用いた新しいマルチモーダル・コントラスト学習法、フェデレーション・マルチモーダル・コントラストVeトレーニングを提案する。
FedMVPは、大規模な事前トレーニングモデルを統合して、フェデレーショントレーニングを強化する。
実世界の2つの画像テキスト分類データセットよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-16T19:18:06Z) - Multi-Level Additive Modeling for Structured Non-IID Federated Learning [54.53672323071204]
我々は、異種クライアント間のより良い知識共有のために、マルチレベル付加モデル(MAM)と呼ばれるマルチレベル構造で編成されたモデルを訓練する。
フェデレートMAM(FeMAM)では、各クライアントは各レベル毎に少なくとも1つのモデルに割り当てられ、そのパーソナライズされた予測は、各レベルに割り当てられたモデルの出力を合計する。
実験により、FeMAMは既存のクラスタリングFLおよびパーソナライズされたFLメソッドを様々な非IID設定で超越していることが示された。
論文 参考訳(メタデータ) (2024-05-26T07:54:53Z) - MAP: Model Aggregation and Personalization in Federated Learning with Incomplete Classes [49.22075916259368]
一部の実世界のアプリケーションでは、データサンプルは通常、ローカルデバイスに分散される。
本稿では,クライアントが不完全なクラスを所有する特別なI.I.D.シーンに焦点を当てる。
提案するMAPアルゴリズムは,FLにおけるアグリゲーションとパーソナライゼーションの目標を同時に達成できる。
論文 参考訳(メタデータ) (2024-04-14T12:22:42Z) - Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - Differentiable Model Selection for Ensemble Learning [37.99501959301896]
本稿では、機械学習と最適化を統合した微分可能なモデル選択のための新しいフレームワークを提案する。
このフレームワークは、個々の事前学習されたモデルの出力を組み合わせて、特定の入力サンプルに対して適切なアンサンブルメンバーを選択する戦略であるアンサンブル学習用に調整されている。
論文 参考訳(メタデータ) (2022-11-01T03:37:49Z) - PersA-FL: Personalized Asynchronous Federated Learning [1.1838866556981258]
非同期更新下での個人化学習問題について検討する。
この問題では、各クライアントは、ローカルモデルとグローバルモデルとを同時に上回るパーソナライズされたモデルを求めます。
パーソナライズのための最適化ベースのフレームワークを2つ検討する。
論文 参考訳(メタデータ) (2022-10-03T18:44:28Z) - Multi-Model Federated Learning [8.629912408966145]
連合学習を複数の無関係モデルが同時に訓練される環境に拡張する。
全てのクライアントは一度にMモデルのどれかを訓練することができ、サーバはMモデルのモデルを保持します。
時間とともに学習タスクをクライアントに割り当てるための複数のポリシーを提案する。第1の方針は、広く研究されているFedAvgをi.i.dのクライアントにモデルを割り当てることでマルチモデル学習に拡張するものである。
さらに,現在に基づく意思決定を行うマルチモデル設定において,クライアント選択のための2つの新しいポリシーを提案する。
論文 参考訳(メタデータ) (2022-01-07T18:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。