論文の概要: Learning to Collaborate in Multi-Module Recommendation via Multi-Agent
Reinforcement Learning without Communication
- arxiv url: http://arxiv.org/abs/2008.09369v2
- Date: Sat, 29 Aug 2020 10:34:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 21:21:03.489593
- Title: Learning to Collaborate in Multi-Module Recommendation via Multi-Agent
Reinforcement Learning without Communication
- Title(参考訳): コミュニケーションのないマルチエージェント強化学習による多モジュール推薦における協調学習
- Authors: Xu He, Bo An, Yanghua Li, Haikai Chen, Rundong Wang, Xinrun Wang,
Runsheng Yu, Xin Li, and Zhirong Wang
- Abstract要約: ウェブページは、しばしば異なる独立したモジュールから構成される。
これらのモジュールのランキングポリシーは異なるチームによって決定され、協力なしに個別に最適化される。
本稿では,異なるモジュール間の通信を制限した,新しいマルチエージェント協調型強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 29.614671064547135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of online e-commerce platforms, more and more customers prefer
to shop online. To sell more products, online platforms introduce various
modules to recommend items with different properties such as huge discounts. A
web page often consists of different independent modules. The ranking policies
of these modules are decided by different teams and optimized individually
without cooperation, which might result in competition between modules. Thus,
the global policy of the whole page could be sub-optimal. In this paper, we
propose a novel multi-agent cooperative reinforcement learning approach with
the restriction that different modules cannot communicate. Our contributions
are three-fold. Firstly, inspired by a solution concept in game theory named
correlated equilibrium, we design a signal network to promote cooperation of
all modules by generating signals (vectors) for different modules. Secondly, an
entropy-regularized version of the signal network is proposed to coordinate
agents' exploration of the optimal global policy. Furthermore, experiments
based on real-world e-commerce data demonstrate that our algorithm obtains
superior performance over baselines.
- Abstract(参考訳): オンラインeコマースプラットフォームが普及するにつれ、ますます多くの顧客がオンラインショッピングを好んでいる。
より多くの製品を販売するために、オンラインプラットフォームは様々なモジュールを導入し、大きなディスカウントなどさまざまな特質を持つ商品を推薦する。
ウェブページは、しばしば異なる独立したモジュールから構成される。
これらのモジュールのランキングポリシは、異なるチームによって決定され、協力なしで個別に最適化される。
したがって、全ページのグローバルポリシーは準最適かもしれない。
本稿では,異なるモジュールが通信できないという制約を満たした,新しいマルチエージェント協調強化学習手法を提案する。
私たちの貢献は3倍です。
まず, 相関平衡というゲーム理論の解法の概念に着想を得て, 異なるモジュールに対して信号(ベクトル)を生成することにより, すべてのモジュールの協調を促進する信号ネットワークを設計した。
第二に、信号ネットワークのエントロピー規則化されたバージョンは、エージェントによる最適なグローバルポリシーの探索を協調するために提案される。
さらに,実世界の電子商取引データに基づく実験により,本アルゴリズムがベースラインよりも優れた性能を得ることを示す。
関連論文リスト
- Closed-form merging of parameter-efficient modules for Federated Continual Learning [9.940242741914748]
一度に1つのLoRA行列をトレーニングする交代最適化戦略であるLoRMを導入する。
これにより、未知の変数を個別に解くことができ、ユニークな解を見つけることができる。
本手法は,さまざまなFCILシナリオにおける最先端性能を示す。
論文 参考訳(メタデータ) (2024-10-23T15:30:13Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Is Modularity Transferable? A Case Study through the Lens of Knowledge Distillation [59.37775534633868]
同族PLM間で事前訓練されたタスク固有のPEFTモジュールを転送するための極めて簡単なアプローチを提案する。
また,不整合性PLM間のモジュールの移動を,推論複雑性の変化を伴わずに行う方法を提案する。
論文 参考訳(メタデータ) (2024-03-27T17:50:00Z) - Communication-Efficient Multimodal Federated Learning: Joint Modality
and Client Selection [14.261582708240407]
FL(Multimodal Federated Learning)は、FL設定におけるモデルトレーニングを強化することを目的としている。
マルチモーダルFLの鍵となる課題は、特に異種ネットワーク設定において、未適応のままである。
マルチモーダル設定における上記の課題に対処できる新しいFL手法であるmmFedMCを提案する。
論文 参考訳(メタデータ) (2024-01-30T02:16:19Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Personalized Federated Learning via Heterogeneous Modular Networks [42.42436277501029]
Federated Modular Network (FedMN)はモジュールプールからサブモジュールを適応的に選択し、異なるクライアントに対して異種ニューラルネットワークを組み立てる新しいPFLアプローチである。
FedMNは軽量なルーティングハイパーネットワークを採用して、各クライアントのジョイントディストリビューションをモデル化し、各クライアント用のモジュールブロックのパーソナライズされた選択を生成する。
本研究は,実世界のテストベッドにおける広範囲な実験を行い,提案したFedMNの有効性と有効性を示した。
論文 参考訳(メタデータ) (2022-10-26T16:22:17Z) - Bidirectional Contrastive Split Learning for Visual Question Answering [6.135215040323833]
マルチモーダルデータに基づく視覚質問応答(VQA)は、ホームロボットや診断などの現実的な応用を促進する。
ひとつの課題は、さまざまなクライアントモデルのための堅牢な分散学習フレームワークを開発することです。
本稿では,分散化されたクライアントのデータ分散全体に対して,グローバルなマルチモーダルモデルをトレーニングするための双方向コントラスト分割学習(Bidirectional Contrastive Split Learning, BiCSL)を提案する。
論文 参考訳(メタデータ) (2022-08-24T11:01:47Z) - One Policy to Control Them All: Shared Modular Policies for
Agent-Agnostic Control [47.78262874364569]
我々は,多種多様なエージェント形態制御を一般化できる単一のグローバルポリシーが存在するかどうかを考察する。
我々は,このグローバルポリシを,同種のモジュール型ニューラルネットワークの集合として表現することを提案する。
複数の平面エージェントに対して,単一のモジュラポリシでロコモーション動作を生成可能であることを示す。
論文 参考訳(メタデータ) (2020-07-09T17:59:35Z) - Controllable Multi-Interest Framework for Recommendation [64.30030600415654]
我々はレコメンデータシステムを逐次レコメンデーション問題として定式化する。
我々は,ComiRec と呼ばれる連続的なレコメンデーションのための新しい制御可能な多目的フレームワークを提案する。
私たちのフレームワークは、オフラインのAlibaba分散クラウドプラットフォームにうまくデプロイされています。
論文 参考訳(メタデータ) (2020-05-19T10:18:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。