Fugu-MT 論文翻訳(概要): Learning to Collaborate in Multi-Module Recommendation via Multi-Agent Reinforcement Learning without Communication

論文の概要: Learning to Collaborate in Multi-Module Recommendation via Multi-Agent Reinforcement Learning without Communication

arxiv url: http://arxiv.org/abs/2008.09369v2
Date: Sat, 29 Aug 2020 10:34:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-26 21:21:03.489593
Title: Learning to Collaborate in Multi-Module Recommendation via Multi-Agent Reinforcement Learning without Communication
Title（参考訳）: コミュニケーションのないマルチエージェント強化学習による多モジュール推薦における協調学習
Authors: Xu He, Bo An, Yanghua Li, Haikai Chen, Rundong Wang, Xinrun Wang, Runsheng Yu, Xin Li, and Zhirong Wang
Abstract要約: ウェブページは、しばしば異なる独立したモジュールから構成される。これらのモジュールのランキングポリシーは異なるチームによって決定され、協力なしに個別に最適化される。本稿では,異なるモジュール間の通信を制限した,新しいマルチエージェント協調型強化学習手法を提案する。
参考スコア（独自算出の注目度）: 29.614671064547135
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rise of online e-commerce platforms, more and more customers prefer to shop online. To sell more products, online platforms introduce various modules to recommend items with different properties such as huge discounts. A web page often consists of different independent modules. The ranking policies of these modules are decided by different teams and optimized individually without cooperation, which might result in competition between modules. Thus, the global policy of the whole page could be sub-optimal. In this paper, we propose a novel multi-agent cooperative reinforcement learning approach with the restriction that different modules cannot communicate. Our contributions are three-fold. Firstly, inspired by a solution concept in game theory named correlated equilibrium, we design a signal network to promote cooperation of all modules by generating signals (vectors) for different modules. Secondly, an entropy-regularized version of the signal network is proposed to coordinate agents' exploration of the optimal global policy. Furthermore, experiments based on real-world e-commerce data demonstrate that our algorithm obtains superior performance over baselines.
Abstract（参考訳）: オンラインeコマースプラットフォームが普及するにつれ、ますます多くの顧客がオンラインショッピングを好んでいる。より多くの製品を販売するために、オンラインプラットフォームは様々なモジュールを導入し、大きなディスカウントなどさまざまな特質を持つ商品を推薦する。ウェブページは、しばしば異なる独立したモジュールから構成される。これらのモジュールのランキングポリシは、異なるチームによって決定され、協力なしで個別に最適化される。したがって、全ページのグローバルポリシーは準最適かもしれない。本稿では,異なるモジュールが通信できないという制約を満たした,新しいマルチエージェント協調強化学習手法を提案する。私たちの貢献は3倍です。まず, 相関平衡というゲーム理論の解法の概念に着想を得て, 異なるモジュールに対して信号(ベクトル)を生成することにより, すべてのモジュールの協調を促進する信号ネットワークを設計した。第二に、信号ネットワークのエントロピー規則化されたバージョンは、エージェントによる最適なグローバルポリシーの探索を協調するために提案される。さらに,実世界の電子商取引データに基づく実験により,本アルゴリズムがベースラインよりも優れた性能を得ることを示す。

関連論文リスト

OneMall: One Architecture, More Scenarios -- End-to-End Generative Recommender Family at Kuaishou E-Commerce [68.7552227901176]
OneMallは、Kuaishouのeコマースサービスに適したエンドツーエンドのジェネレーティブレコメンデーションフレームワークである。製品カード、ショートビデオ、ライブストリーミングなど、eコマースの複数のアイテム配信シナリオを統合する。 OneMallはすでにデプロイされており、Kuaishouでは毎日4億人のアクティブユーザーが利用している。
論文参考訳（メタデータ） (2026-01-29T14:22:39Z)
Collab-Solver: Collaborative Solving Policy Learning for Mixed-Integer Linear Programming [57.44900640134789]
StackelbergゲームとしてMILP問題解決のための新しいマルチエージェントベースのポリシー学習フレームワークを提案する。具体的には,スタックルバーグゲームとしてMILP解法におけるカット選択と分岐の協調を定式化する。共同学習されたポリシーは、合成および大規模実世界のMILPデータセットの問題解決性能を著しく向上させる。
論文参考訳（メタデータ） (2025-08-05T03:16:04Z)
Closed-form merging of parameter-efficient modules for Federated Continual Learning [9.940242741914748]
一度に1つのLoRA行列をトレーニングする交代最適化戦略であるLoRMを導入する。これにより、未知の変数を個別に解くことができ、ユニークな解を見つけることができる。本手法は,さまざまなFCILシナリオにおける最先端性能を示す。
論文参考訳（メタデータ） (2024-10-23T15:30:13Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文参考訳（メタデータ） (2024-03-27T17:50:00Z)
Communication-Efficient Multimodal Federated Learning: Joint Modality and Client Selection [14.261582708240407]
FL(Multimodal Federated Learning)は、FL設定におけるモデルトレーニングを強化することを目的としている。マルチモーダルFLの鍵となる課題は、特に異種ネットワーク設定において、未適応のままである。マルチモーダル設定における上記の課題に対処できる新しいFL手法であるmmFedMCを提案する。
論文参考訳（メタデータ） (2024-01-30T02:16:19Z)
Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。 Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文参考訳（メタデータ） (2023-06-15T12:45:25Z)
Learning From Good Trajectories in Offline Multi-Agent Reinforcement Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-28T18:11:26Z)
Personalized Federated Learning via Heterogeneous Modular Networks [42.42436277501029]
Federated Modular Network (FedMN)はモジュールプールからサブモジュールを適応的に選択し、異なるクライアントに対して異種ニューラルネットワークを組み立てる新しいPFLアプローチである。 FedMNは軽量なルーティングハイパーネットワークを採用して、各クライアントのジョイントディストリビューションをモデル化し、各クライアント用のモジュールブロックのパーソナライズされた選択を生成する。本研究は,実世界のテストベッドにおける広範囲な実験を行い,提案したFedMNの有効性と有効性を示した。
論文参考訳（メタデータ） (2022-10-26T16:22:17Z)
Bidirectional Contrastive Split Learning for Visual Question Answering [6.135215040323833]
マルチモーダルデータに基づく視覚質問応答(VQA)は、ホームロボットや診断などの現実的な応用を促進する。ひとつの課題は、さまざまなクライアントモデルのための堅牢な分散学習フレームワークを開発することです。本稿では,分散化されたクライアントのデータ分散全体に対して,グローバルなマルチモーダルモデルをトレーニングするための双方向コントラスト分割学習(Bidirectional Contrastive Split Learning, BiCSL)を提案する。
論文参考訳（メタデータ） (2022-08-24T11:01:47Z)
One Policy to Control Them All: Shared Modular Policies for Agent-Agnostic Control [47.78262874364569]
我々は,多種多様なエージェント形態制御を一般化できる単一のグローバルポリシーが存在するかどうかを考察する。我々は,このグローバルポリシを,同種のモジュール型ニューラルネットワークの集合として表現することを提案する。複数の平面エージェントに対して,単一のモジュラポリシでロコモーション動作を生成可能であることを示す。
論文参考訳（メタデータ） (2020-07-09T17:59:35Z)
Controllable Multi-Interest Framework for Recommendation [64.30030600415654]
我々はレコメンデータシステムを逐次レコメンデーション問題として定式化する。我々は,ComiRec と呼ばれる連続的なレコメンデーションのための新しい制御可能な多目的フレームワークを提案する。私たちのフレームワークは、オフラインのAlibaba分散クラウドプラットフォームにうまくデプロイされています。
論文参考訳（メタデータ） (2020-05-19T10:18:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。