論文の概要: Learning to Collaborate in Multi-Module Recommendation via Multi-Agent
Reinforcement Learning without Communication
- arxiv url: http://arxiv.org/abs/2008.09369v2
- Date: Sat, 29 Aug 2020 10:34:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 21:21:03.489593
- Title: Learning to Collaborate in Multi-Module Recommendation via Multi-Agent
Reinforcement Learning without Communication
- Title(参考訳): コミュニケーションのないマルチエージェント強化学習による多モジュール推薦における協調学習
- Authors: Xu He, Bo An, Yanghua Li, Haikai Chen, Rundong Wang, Xinrun Wang,
Runsheng Yu, Xin Li, and Zhirong Wang
- Abstract要約: ウェブページは、しばしば異なる独立したモジュールから構成される。
これらのモジュールのランキングポリシーは異なるチームによって決定され、協力なしに個別に最適化される。
本稿では,異なるモジュール間の通信を制限した,新しいマルチエージェント協調型強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 29.614671064547135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of online e-commerce platforms, more and more customers prefer
to shop online. To sell more products, online platforms introduce various
modules to recommend items with different properties such as huge discounts. A
web page often consists of different independent modules. The ranking policies
of these modules are decided by different teams and optimized individually
without cooperation, which might result in competition between modules. Thus,
the global policy of the whole page could be sub-optimal. In this paper, we
propose a novel multi-agent cooperative reinforcement learning approach with
the restriction that different modules cannot communicate. Our contributions
are three-fold. Firstly, inspired by a solution concept in game theory named
correlated equilibrium, we design a signal network to promote cooperation of
all modules by generating signals (vectors) for different modules. Secondly, an
entropy-regularized version of the signal network is proposed to coordinate
agents' exploration of the optimal global policy. Furthermore, experiments
based on real-world e-commerce data demonstrate that our algorithm obtains
superior performance over baselines.
- Abstract(参考訳): オンラインeコマースプラットフォームが普及するにつれ、ますます多くの顧客がオンラインショッピングを好んでいる。
より多くの製品を販売するために、オンラインプラットフォームは様々なモジュールを導入し、大きなディスカウントなどさまざまな特質を持つ商品を推薦する。
ウェブページは、しばしば異なる独立したモジュールから構成される。
これらのモジュールのランキングポリシは、異なるチームによって決定され、協力なしで個別に最適化される。
したがって、全ページのグローバルポリシーは準最適かもしれない。
本稿では,異なるモジュールが通信できないという制約を満たした,新しいマルチエージェント協調強化学習手法を提案する。
私たちの貢献は3倍です。
まず, 相関平衡というゲーム理論の解法の概念に着想を得て, 異なるモジュールに対して信号(ベクトル)を生成することにより, すべてのモジュールの協調を促進する信号ネットワークを設計した。
第二に、信号ネットワークのエントロピー規則化されたバージョンは、エージェントによる最適なグローバルポリシーの探索を協調するために提案される。
さらに,実世界の電子商取引データに基づく実験により,本アルゴリズムがベースラインよりも優れた性能を得ることを示す。
関連論文リスト
- Communication-Efficient Multimodal Federated Learning: Joint Modality
and Client Selection [14.261582708240407]
FL(Multimodal Federated Learning)は、FL設定におけるモデルトレーニングを強化することを目的としている。
マルチモーダルFLの鍵となる課題は、特に異種ネットワーク設定において、未適応のままである。
マルチモーダル設定における上記の課題に対処できる新しいFL手法であるmmFedMCを提案する。
論文 参考訳(メタデータ) (2024-01-30T02:16:19Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Multimodal Federated Learning via Contrastive Representation Ensemble [17.08211358391482]
フェデレーテッド・ラーニング(FL)は、集中型機械学習に代わるプライバシ意識の代替手段として機能する。
既存のFLメソッドはすべて、モデルアグリゲーションを単一のモダリティレベルに依存している。
マルチモーダルFL(CreamFL)のためのコントラスト表現アンサンブルとアグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-02-17T14:17:44Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Personalized Federated Learning via Heterogeneous Modular Networks [42.42436277501029]
Federated Modular Network (FedMN)はモジュールプールからサブモジュールを適応的に選択し、異なるクライアントに対して異種ニューラルネットワークを組み立てる新しいPFLアプローチである。
FedMNは軽量なルーティングハイパーネットワークを採用して、各クライアントのジョイントディストリビューションをモデル化し、各クライアント用のモジュールブロックのパーソナライズされた選択を生成する。
本研究は,実世界のテストベッドにおける広範囲な実験を行い,提案したFedMNの有効性と有効性を示した。
論文 参考訳(メタデータ) (2022-10-26T16:22:17Z) - Bidirectional Contrastive Split Learning for Visual Question Answering [6.135215040323833]
マルチモーダルデータに基づく視覚質問応答(VQA)は、ホームロボットや診断などの現実的な応用を促進する。
ひとつの課題は、さまざまなクライアントモデルのための堅牢な分散学習フレームワークを開発することです。
本稿では,分散化されたクライアントのデータ分散全体に対して,グローバルなマルチモーダルモデルをトレーニングするための双方向コントラスト分割学習(Bidirectional Contrastive Split Learning, BiCSL)を提案する。
論文 参考訳(メタデータ) (2022-08-24T11:01:47Z) - One Policy to Control Them All: Shared Modular Policies for
Agent-Agnostic Control [47.78262874364569]
我々は,多種多様なエージェント形態制御を一般化できる単一のグローバルポリシーが存在するかどうかを考察する。
我々は,このグローバルポリシを,同種のモジュール型ニューラルネットワークの集合として表現することを提案する。
複数の平面エージェントに対して,単一のモジュラポリシでロコモーション動作を生成可能であることを示す。
論文 参考訳(メタデータ) (2020-07-09T17:59:35Z) - Controllable Multi-Interest Framework for Recommendation [64.30030600415654]
我々はレコメンデータシステムを逐次レコメンデーション問題として定式化する。
我々は,ComiRec と呼ばれる連続的なレコメンデーションのための新しい制御可能な多目的フレームワークを提案する。
私たちのフレームワークは、オフラインのAlibaba分散クラウドプラットフォームにうまくデプロイされています。
論文 参考訳(メタデータ) (2020-05-19T10:18:43Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。