論文の概要: GRADE: Personalized Multi-Task Fusion via Group-relative Reinforcement Learning with Adaptive Dirichlet Exploration
- arxiv url: http://arxiv.org/abs/2510.07919v2
- Date: Fri, 10 Oct 2025 03:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:46.896581
- Title: GRADE: Personalized Multi-Task Fusion via Group-relative Reinforcement Learning with Adaptive Dirichlet Exploration
- Title(参考訳): GRADE:適応ディリクレ探索によるグループ相対強化学習によるパーソナライズされたマルチタスクフュージョン
- Authors: Tingfeng Hong, Pingye Ren, Xinlong Xiao, Chao Wang, Chenyi Lei, Wenwu Ou, Han Li,
- Abstract要約: Adaptive Dirichlet Explorationを用いたグループ相対強化学習は、パーソナライズされたマルチタスク融合のための、新しくて堅牢なフレームワークである。
GRADEは、大規模なA/Bテストにおいて確立されたベースラインを著しく上回っている。
GRADEはKuaishouのマーケットプレース検索のシナリオに完全にデプロイされており、数億人のユーザーにサービスを提供している。
- 参考スコア(独自算出の注目度): 10.195151916351163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Balancing multiple objectives is critical for user satisfaction in modern recommender and search systems, yet current Multi-Task Fusion (MTF) methods rely on static, manually-tuned weights that fail to capture individual user intent. While Reinforcement Learning (RL) offers a path to personalization, traditional approaches often falter due to training instability and the sparse rewards inherent in these large-scale systems. To address these limitations, we propose Group-relative Reinforcement learning with Adaptive Dirichlet Exploration (GRADE), a novel and robust framework for personalized multi-task fusion. GRADE leverages a critic-free, Group Relative Policy Optimization (GRPO) paradigm, enabling stable and efficient policy learning by evaluating the relative performance of candidate weight groups. Its core innovations include employing the Dirichlet distribution for principled and structured exploration of the weight space, and a composite reward function that combines sparse user feedback with dense model priors and rule-based constraints to guide the search effectively. Deployed in the in-app marketplace of an application with over hundreds of millions daily active users, GRADE significantly outperforms established baselines, achieving substantial gains in rigorous large-scale A/B tests: +0.595\% in CTR, +1.193\% in CVR, +1.788\% in OPM, and +1.568\% in total order volume. Following its strong performance, GRADE has been fully deployed in the marketplace search scenario of Kuaishou, serving hundreds of millions of users.
- Abstract(参考訳): 現代のレコメンデータや検索システムでは、複数の目的のバランスをとることがユーザの満足度にとって重要であるが、現在のマルチタスクフュージョン(MTF)メソッドは、個々のユーザの意図を捉えない静的な手作業による重み付けに依存している。
強化学習(Reinforcement Learning, RL)はパーソナライズへの道を提供するが、従来のアプローチは、トレーニングの不安定性と、これらの大規模システムに固有のスパース報酬によって、しばしば混乱する。
これらの制約に対処するために,適応ディリクレ探索(GRADE)を用いたグループ相対強化学習を提案する。
GRADEは、批判のないグループ相対政策最適化(GRPO)パラダイムを活用し、候補重み群の相対的な性能を評価することによって、安定的で効率的な政策学習を可能にする。
その中核となる革新は、重量空間の原理的および構造的探索にディリクレ分布を用いることや、疎いユーザフィードバックと高密度モデルの事前と規則に基づく制約を組み合わせて探索を効果的に導く複合報酬関数である。
アプリケーション内のマーケットプレースに数億人のアクティブユーザを抱えるGRADEは、確立されたベースラインをはるかに上回り、厳格な大規模A/Bテストでは、+0.595\%、CVRでは+1.193\%、OPMでは+1.788\%、全注文数では+1.568\%という大きな利益を達成している。
強力なパフォーマンスの後、GRADEはKuaishouのマーケットプレース検索シナリオに完全にデプロイされ、数億人のユーザーにサービスを提供している。
関連論文リスト
- TADS: Task-Aware Data Selection for Multi-Task Multimodal Pre-Training [29.962039479618543]
マルチタスク・マルチモーダル・プレトレーニングのための新しいフレームワークであるTADS(Task-Aware Data Selection)を紹介する。
TADSは固有の品質、タスク関連性、分散多様性を学習可能な値関数に統合する。
フィードバック駆動型メタ学習機構は、プロキシモデルの性能に基づいて選択戦略を適応的に洗練する。
論文 参考訳(メタデータ) (2026-02-05T03:08:45Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Training-Free Group Relative Policy Optimization [34.73950078782136]
我々は,Large Language Model (LLM) エージェントが,経験的知識を先行するトークンとして学習することで,出力分布に類似した効果を得られることを論じる。
我々は,LLMエージェントの性能をパラメータ更新なしで向上する,費用対効果の高いソリューションであるTraining-Free Group Relative Policy Optimization (Training-Free GRPO)を提案する。
数学的推論とWeb検索タスクの実験により、DeepSeek-V3.1-Terminusに適用されたトレーニングフリーGRPOは、ドメイン外のパフォーマンスを大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-10-09T13:18:17Z) - TAP: Two-Stage Adaptive Personalization of Multi-task and Multi-Modal Foundation Models in Federated Learning [37.79391516435725]
フェデレートラーニング(FL)は、必ずしも各クライアントのニーズに適合するとは限らない最終モデルを生成することが示されている。
文献のこのギャップに対処するために,2段階適応パーソナライゼーション(TAP)を提案する。
提案アルゴリズムは,多様なデータセットやタスクに対して,多数のベースラインに対して有効であることを示す。
論文 参考訳(メタデータ) (2025-09-30T17:01:32Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-05-22T06:24:32Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Ada-K Routing: Boosting the Efficiency of MoE-based LLMs [6.954735360168147]
トークンごとにアクティベートされた専門家の数を動的に調整する新しいAda-Kルーティング戦略を提案する。
我々の戦略は学習可能で軽量なアロケータモジュールを組み込んでおり、各トークンのコンテキストに応じたカスタマイズされた専門家リソース割り当てを決定する。
論文 参考訳(メタデータ) (2024-10-14T12:50:04Z) - Personalized Multi-task Training for Recommender System [80.23030752707916]
PMTRecは、様々な情報ソースから包括的ユーザ/イテム埋め込みを得るための、最初のパーソナライズされたマルチタスク学習アルゴリズムである。
我々の貢献は、レコメンデーションシステムにおけるパーソナライズされたマルチタスクトレーニングを促進するための新しい道を開く。
論文 参考訳(メタデータ) (2024-07-31T06:27:06Z) - Leveraging Foundation Models for Multi-modal Federated Learning with Incomplete Modality [41.79433449873368]
我々は、事前学習完了(FedMVP)を用いた新しいマルチモーダル・コントラスト学習法、フェデレーション・マルチモーダル・コントラストVeトレーニングを提案する。
FedMVPは、大規模な事前トレーニングモデルを統合して、フェデレーショントレーニングを強化する。
実世界の2つの画像テキスト分類データセットよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-16T19:18:06Z) - Multi-Level Additive Modeling for Structured Non-IID Federated Learning [54.53672323071204]
我々は、異種クライアント間のより良い知識共有のために、マルチレベル付加モデル(MAM)と呼ばれるマルチレベル構造で編成されたモデルを訓練する。
フェデレートMAM(FeMAM)では、各クライアントは各レベル毎に少なくとも1つのモデルに割り当てられ、そのパーソナライズされた予測は、各レベルに割り当てられたモデルの出力を合計する。
実験により、FeMAMは既存のクラスタリングFLおよびパーソナライズされたFLメソッドを様々な非IID設定で超越していることが示された。
論文 参考訳(メタデータ) (2024-05-26T07:54:53Z) - MAP: Model Aggregation and Personalization in Federated Learning with Incomplete Classes [49.22075916259368]
一部の実世界のアプリケーションでは、データサンプルは通常、ローカルデバイスに分散される。
本稿では,クライアントが不完全なクラスを所有する特別なI.I.D.シーンに焦点を当てる。
提案するMAPアルゴリズムは,FLにおけるアグリゲーションとパーソナライゼーションの目標を同時に達成できる。
論文 参考訳(メタデータ) (2024-04-14T12:22:42Z) - Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Differentiable Model Selection for Ensemble Learning [37.99501959301896]
本稿では、機械学習と最適化を統合した微分可能なモデル選択のための新しいフレームワークを提案する。
このフレームワークは、個々の事前学習されたモデルの出力を組み合わせて、特定の入力サンプルに対して適切なアンサンブルメンバーを選択する戦略であるアンサンブル学習用に調整されている。
論文 参考訳(メタデータ) (2022-11-01T03:37:49Z) - PersA-FL: Personalized Asynchronous Federated Learning [1.1838866556981258]
非同期更新下での個人化学習問題について検討する。
この問題では、各クライアントは、ローカルモデルとグローバルモデルとを同時に上回るパーソナライズされたモデルを求めます。
パーソナライズのための最適化ベースのフレームワークを2つ検討する。
論文 参考訳(メタデータ) (2022-10-03T18:44:28Z) - Multi-Task Fusion via Reinforcement Learning for Long-Term User
Satisfaction in Recommender Systems [3.4394890850129007]
バッチ強化学習に基づくマルチタスク融合フレームワーク(BatchRL-MTF)を提案する。
我々は、長期ユーザー満足のために、固定バッチデータから最適なレコメンデーションポリシーをオフラインで学習する。
ユーザの行動に関する包括的調査により,ユーザの定着度とユーザ活動性の2つの側面から,ユーザ満足度報酬を微妙にモデル化する。
論文 参考訳(メタデータ) (2022-08-09T06:35:05Z) - Multi-Model Federated Learning [8.629912408966145]
連合学習を複数の無関係モデルが同時に訓練される環境に拡張する。
全てのクライアントは一度にMモデルのどれかを訓練することができ、サーバはMモデルのモデルを保持します。
時間とともに学習タスクをクライアントに割り当てるための複数のポリシーを提案する。第1の方針は、広く研究されているFedAvgをi.i.dのクライアントにモデルを割り当てることでマルチモデル学習に拡張するものである。
さらに,現在に基づく意思決定を行うマルチモデル設定において,クライアント選択のための2つの新しいポリシーを提案する。
論文 参考訳(メタデータ) (2022-01-07T18:24:23Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。
RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。
本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文 参考訳(メタデータ) (2020-02-07T09:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。