論文の概要: Edge-Compatible Reinforcement Learning for Recommendations
- arxiv url: http://arxiv.org/abs/2112.05812v1
- Date: Fri, 10 Dec 2021 20:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 17:44:46.879133
- Title: Edge-Compatible Reinforcement Learning for Recommendations
- Title(参考訳): 推薦のためのエッジ対応強化学習
- Authors: James E. Kostas, Philip S. Thomas, Georgios Theocharous
- Abstract要約: 我々は,非同期なCoagentポリシーアルゴリズムであるcitepkostas 2020asynchronousを構築し,この問題に対する原則的解決策を提案する。
このアルゴリズムはエッジ設定で機能し、学習するために設計されており、ネットワークの問題もこの設定の一部である。
- 参考スコア(独自算出の注目度): 34.84923837836135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most reinforcement learning (RL) recommendation systems designed for edge
computing must either synchronize during recommendation selection or depend on
an unprincipled patchwork collection of algorithms. In this work, we build on
asynchronous coagent policy gradient algorithms \citep{kostas2020asynchronous}
to propose a principled solution to this problem. The class of algorithms that
we propose can be distributed over the internet and run asynchronously and in
real-time. When a given edge fails to respond to a request for data with
sufficient speed, this is not a problem; the algorithm is designed to function
and learn in the edge setting, and network issues are part of this setting. The
result is a principled, theoretically grounded RL algorithm designed to be
distributed in and learn in this asynchronous environment. In this work, we
describe this algorithm and a proposed class of architectures in detail, and
demonstrate that they work well in practice in the asynchronous setting, even
as the network quality degrades.
- Abstract(参考訳): エッジコンピューティング用に設計されたほとんどの強化学習(rl)レコメンデーションシステムは、レコメンデーション選択時に同期するか、アルゴリズムの既定のパッチワークコレクションに依存する必要がある。
本研究では,非同期coagentポリシー勾配アルゴリズム \citep{kostas2020asynchronous} を用いて,この問題に対する原理的解法を提案する。
提案するアルゴリズムのクラスは,インターネット上で分散し,非同期かつリアルタイムに実行することができる。
与えられたエッジが十分な速度でデータ要求に応答できない場合、これは問題ではない。このアルゴリズムはエッジ設定で機能し、学習するように設計されており、ネットワーク上の問題はこの設定の一部である。
その結果、この非同期環境で分散して学習するように設計された原理的、理論的に基礎付けられたRLアルゴリズムが得られた。
本稿では,このアルゴリズムと提案したアーキテクチャのクラスを詳細に記述し,ネットワーク品質が低下しても,非同期環境ではうまく動作することを示す。
関連論文リスト
- Intelligent Hybrid Resource Allocation in MEC-assisted RAN Slicing Network [72.2456220035229]
我々は,協調型MEC支援RANスライシングシステムにおける異種サービス要求に対するSSRの最大化を目指す。
最適ハイブリッドRAポリシーをインテリジェントに学習するためのRGRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-02T01:36:13Z) - Queuing dynamics of asynchronous Federated Learning [15.26212962081762]
計算速度の異なるノードを用いた非同期フェデレーション学習機構について検討する。
本稿では、より複雑な遅延を低減できる中央サーバのための一様でないサンプリング方式を提案する。
画像分類問題に対する現状の非同期アルゴリズムよりも,提案手法の大幅な改善が明らかとなった。
論文 参考訳(メタデータ) (2024-02-12T18:32:35Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Solving the vehicle routing problem with deep reinforcement learning [0.0]
本稿では,NP-Hard 問題のクラスに属する有名な問題である Vehicle Routing Problem (VRP) に対する RL の適用について述べる。
第2フェーズでは、アクターと批評家の背後にあるニューラルアーキテクチャが確立され、畳み込みニューラルネットワークに基づいたニューラルアーキテクチャを採用することが選択された。
広範囲なインスタンスで行った実験では、アルゴリズムが優れた一般化能力を持ち、短時間で良い解に達することが示されている。
論文 参考訳(メタデータ) (2022-07-30T12:34:26Z) - Locally Asynchronous Stochastic Gradient Descent for Decentralised Deep
Learning [0.0]
Local Asynchronous SGD (LASGD) は、モデル同期にAll Reduceに依存する非同期分散アルゴリズムである。
ImageNetデータセット上の画像分類タスクにおいて、LASGDの性能を実証的に検証する。
論文 参考訳(メタデータ) (2022-03-24T14:25:15Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Parallelized Reverse Curriculum Generation [62.25453821794469]
強化学習では, エージェントが, まばらな報酬のために, 特定の一連の行動を必要とするタスクをマスターすることが困難である。
逆カリキュラム生成(RCG)は、エージェントが学習するカリキュラムを自動的に生成する逆拡張アプローチを提供する。
本稿では,複数のACペアを同時に訓練し,定期的に批判を交換する並列化手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T15:58:35Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z) - Task Allocation for Asynchronous Mobile Edge Learning with Delay and
Energy Constraints [13.95043802655365]
本稿では、リソース制約された無線エッジネットワークを介して接続された複数のエッジノードまたは学習者間で非同期に機械学習モデルをトレーニングするための最適なタスク割り当てスキームを設計し、"モバイルエッジラーニング(MEL)"のパラダイムを拡張した。
消費される時間とエネルギーは、学習者の異種コミュニケーションと計算能力に直接関係している。
その結果,HU同期/非同期(HU-Sync/Asyn)手法よりもHA-Asyn法の方が有効であり,最大25%の利得が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-30T22:45:59Z) - Geometric Deep Reinforcement Learning for Dynamic DAG Scheduling [8.14784681248878]
本稿では,現実的なスケジューリング問題を解決するための強化学習手法を提案する。
高性能コンピューティングコミュニティにおいて一般的に実行されるアルゴリズムであるColesky Factorizationに適用する。
我々のアルゴリズムは,アクター・クリティカル・アルゴリズム (A2C) と組み合わせてグラフニューラルネットワークを用いて,問題の適応表現をオンザフライで構築する。
論文 参考訳(メタデータ) (2020-11-09T10:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。