論文の概要: Faded-Experience Trust Region Policy Optimization for Model-Free Power
Allocation in Interference Channel
- arxiv url: http://arxiv.org/abs/2008.01705v1
- Date: Tue, 4 Aug 2020 17:12:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 01:21:54.805926
- Title: Faded-Experience Trust Region Policy Optimization for Model-Free Power
Allocation in Interference Channel
- Title(参考訳): 干渉チャンネルにおけるモデルフリーパワーアロケーションのためのフェデレーション信頼領域最適化
- Authors: Mohammad G. Khoshkholgh and Halim Yanikomeroglu
- Abstract要約: 政策強化学習技術により、エージェントは環境との相互作用を通じて最適な行動ポリシーを学習することができる。
人的意思決定のアプローチに触発されて、エージェントを増強して、最近学習したポリシーを記憶し、利用することで、収束速度の向上に取り組みます。
その結果,FE-TRPO では TRPO に比べて学習速度が約2倍になることがわかった。
- 参考スコア(独自算出の注目度): 28.618312473850974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy gradient reinforcement learning techniques enable an agent to directly
learn an optimal action policy through the interactions with the environment.
Nevertheless, despite its advantages, it sometimes suffers from slow
convergence speed. Inspired by human decision making approach, we work toward
enhancing its convergence speed by augmenting the agent to memorize and use the
recently learned policies. We apply our method to the trust-region policy
optimization (TRPO), primarily developed for locomotion tasks, and propose
faded-experience (FE) TRPO. To substantiate its effectiveness, we adopt it to
learn continuous power control in an interference channel when only noisy
location information of devices is available. Results indicate that with
FE-TRPO it is possible to almost double the learning speed compared to TRPO.
Importantly, our method neither increases the learning complexity nor imposes
performance loss.
- Abstract(参考訳): 政策勾配強化学習技術により、エージェントは環境との相互作用を通じて最適な行動方針を直接学習することができる。
しかし、その利点にもかかわらず、時には収束速度が遅い。
人的意思決定のアプローチに触発されて,最近学習された政策を記憶・利用するためにエージェントを増強することにより,収束速度の向上を目指す。
本手法は,主に移動タスク用に開発された信頼領域ポリシー最適化(TRPO)に適用し,フェード・エクスペリエンス(FE) TRPOを提案する。
その効果を実証するため,ノイズの多いデバイスの位置情報しか得られない場合に,干渉チャネルで連続的な電力制御を学習するために採用する。
その結果,FE-TRPO では TRPO に比べて学習速度が約2倍になることがわかった。
重要なことは、我々の手法は学習の複雑さを高めたり、性能損失を課したりしない。
関連論文リスト
- Diffusion Policies creating a Trust Region for Offline Reinforcement Learning [66.17291150498276]
本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。
DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。
DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
論文 参考訳(メタデータ) (2024-05-30T05:04:33Z) - Skill or Luck? Return Decomposition via Advantage Functions [15.967056781224102]
サンプル効率のよい強化学習には,非政治データからの学習が不可欠である。
その結果, 有利関数は, 反応が帰路に与える因果効果として理解できることが示唆された。
この分解により、直接アドバンテージ推定を外部設定に自然に拡張できます。
論文 参考訳(メタデータ) (2024-02-20T10:09:00Z) - Adversarial Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
ディープニューラルネットワークで表されるポリシーは過度に適合し、強化学習エージェントが効果的なポリシーを学ぶのを妨げます。
データ拡張は、オーバーフィッティングの効果を軽減し、RLエージェントのパフォーマンスを高めることができる。
本稿では、上記の問題を緩和し、学習ポリシーの効率を向上させるための新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T21:01:08Z) - Computationally Efficient Reinforcement Learning: Targeted Exploration
leveraging Simple Rules [1.124958340749622]
本稿では,このようなルールを組み込むための,連続的アクター批判フレームワークの簡易かつ効果的な修正を提案する。
室内温度制御のケーススタディでは、エージェントは古典的なエージェントよりも最大6~7倍の速さで優れたポリシーに収束することができる。
論文 参考訳(メタデータ) (2022-11-30T02:24:42Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Transferable Deep Reinforcement Learning Framework for Autonomous
Vehicles with Joint Radar-Data Communications [69.24726496448713]
本稿では,AVの最適決定を支援するために,マルコフ決定プロセス(MDP)に基づくインテリジェントな最適化フレームワークを提案する。
そこで我々は,近年の深層強化学習技術を活用した効果的な学習アルゴリズムを開発し,AVの最適方針を見出す。
提案手法は,従来の深部強化学習手法と比較して,AVによる障害物ミス検出確率を最大67%削減することを示す。
論文 参考訳(メタデータ) (2021-05-28T08:45:37Z) - Path Design and Resource Management for NOMA enhanced Indoor Intelligent
Robots [58.980293789967575]
通信可能な屋内知的ロボット(IR)サービスフレームワークを提案する。
室内レイアウトとチャネル状態を決定論的に記述できるレゴモデリング手法が提案されている。
調査対象の無線マップは、強化学習エージェントを訓練するための仮想環境として呼び出される。
論文 参考訳(メタデータ) (2020-11-23T21:45:01Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。