論文の概要: Reinforcement learning for PHY layer communications
- arxiv url: http://arxiv.org/abs/2106.11595v1
- Date: Tue, 22 Jun 2021 08:02:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 15:05:58.231835
- Title: Reinforcement learning for PHY layer communications
- Title(参考訳): PHY層通信のための強化学習
- Authors: Philippe Mary (IETR), Visa Koivunen, Christophe Moy (IETR)
- Abstract要約: 第9.2節では、RL問題に対処するために必要な基本理論をすべて提示する。
第9.3節では、RL問題のモデル化にも重点を置いている。
この章は第9.4節で締めくくられ、RLの動向を予見する。
- 参考スコア(独自算出の注目度): 16.87674275351593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this chapter, we will give comprehensive examples of applying RL in
optimizing the physical layer of wireless communications by defining different
class of problems and the possible solutions to handle them. In Section 9.2, we
present all the basic theory needed to address a RL problem, i.e. Markov
decision process (MDP), Partially observable Markov decision process (POMDP),
but also two very important and widely used algorithms for RL, i.e. the
Q-learning and SARSA algorithms. We also introduce the deep reinforcement
learning (DRL) paradigm and the section ends with an introduction to the
multi-armed bandits (MAB) framework. Section 9.3 focuses on some toy examples
to illustrate how the basic concepts of RL are employed in communication
systems. We present applications extracted from literature with simplified
system models using similar notation as in Section 9.2 of this Chapter. In
Section 9.3, we also focus on modeling RL problems, i.e. how action and state
spaces and rewards are chosen. The Chapter is concluded in Section 9.4 with a
prospective thought on RL trends and it ends with a review of a broader state
of the art in Section 9.5.
- Abstract(参考訳): 本章では,無線通信の物理層を最適化するためにrlを適用する際の包括的例を示す。
第9.2節では、RL問題に対処するために必要な基本理論をすべて提示する。
マルコフ決定プロセス (MDP) は、部分的に観測可能なマルコフ決定プロセス (POMDP) であり、またRLのための非常に重要で広く使われているアルゴリズムである。
Q-learningとSARSAアルゴリズム。
深層強化学習(DRL)のパラダイムも導入し,マルチアーム・バンディット(MAB)フレームワークの導入で終了する。
第9.3節は、RLの基本概念が通信システムにどのように使われているかを説明するためのおもちゃの例に焦点を当てている。
本章の9.2節と同様の表記法を用いて,簡易なシステムモデルを用いた文献から抽出した応用について述べる。
第9.3節では、RL問題のモデリングにも焦点をあてている。
行動と国家の空間と報酬の 選択方法です
この章は第9.4節でRLの動向を予見し、第9.5節で芸術のより広い状態のレビューで終わる。
関連論文リスト
- Reinforcement Replaces Supervision: Query focused Summarization using
Deep Reinforcement Learning [43.123290672073814]
クエリに基づいて文書から要約を生成するシステムを扱う。
Reinforcement Learning (RL) が自然言語生成のための Supervised Learning (SL) の一般化を提供するという知見に触発されて,本課題に RL ベースのアプローチを用いる。
我々は、ROUGE、BLEU、Semantic similarityといった様々な報酬信号に基づいて訓練された複数のポリシーグラディエントネットワークを開発する。
論文 参考訳(メタデータ) (2023-11-29T10:38:16Z) - Exploiting Multiple Abstractions in Episodic RL via Reward Shaping [23.61187560936501]
対象領域の下位にあるマルコフ決定過程(MDP)の抽象層の線形階層について考察する。
本稿では,抽象レベルで得られる解を用いて,より具体的なMDPに報酬を与える方法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:22:29Z) - Disentangled Representation Learning [49.90680972116791]
Disentangled Representation Learning (DRL) は、観測可能なデータに隠された基礎的要因を表現形式で識別し、切り離すことができるモデルを学習することを目的としている。
我々は、モチベーション、定義、方法論、評価、アプリケーション、モデルデザインを含む様々な側面からDRLを包括的にレビューする。
論文 参考訳(メタデータ) (2022-11-21T18:14:38Z) - Learning Bellman Complete Representations for Offline Policy Evaluation [51.96704525783913]
サンプル効率のよいOPEの2つの条件は、ベルマン完全性とカバレッジである。
我々の表現は、政治外RLのために開発された従来の表現学習手法と比較して、OPEをより良くできることを示す。
論文 参考訳(メタデータ) (2022-07-12T21:02:02Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - Dynamic Channel Access via Meta-Reinforcement Learning [0.8223798883838329]
モデル非依存型メタラーニング(MAML)の手法を取り入れたメタDRLフレームワークを提案する。
同じ分布から引き出された異なるタスクに適応するためには、勾配降下がわずかに必要であることが示される。
論文 参考訳(メタデータ) (2021-12-24T15:04:43Z) - Exploring Neural Models for Query-Focused Summarization [74.41256438059256]
クエリ中心の要約(QFS)に対するニューラルネットワークの体系的な探索を行う。
本稿では,QMSumデータセットの最先端性能を最大3.38ROUGE-1,3.72ROUGE-2,3.28ROUGE-Lのマージンで達成する2つのモデル拡張を提案する。
論文 参考訳(メタデータ) (2021-12-14T18:33:29Z) - Explainable Reinforcement Learning for Broad-XAI: A Conceptual Framework
and Survey [0.7366405857677226]
強化学習(Reinforcement Learning, RL)法は、ブロードXAIの開発に必要な認知モデルのための潜在的なバックボーンを提供する。
RLは、さまざまなシーケンシャルな意思決定問題の解決に成功している一連のアプローチである。
本稿では,現在のXRL研究を統一し,Broad-XAI開発のバックボーンとしてRLを用いるCausal XRL Framework (CXF) という概念的フレームワークを導入することを目的とする。
論文 参考訳(メタデータ) (2021-08-20T05:18:50Z) - Hierarchical Reinforcement Learning for Relay Selection and Power
Optimization in Two-Hop Cooperative Relay Network [7.5377621697101205]
本研究では,2ホップ協調型中継ネットワークにおいて,送信電力の制約を考慮に入れた停止確率最小化問題について検討する。
我々は、リレー選択と配電のための戦略を学ぶために強化学習(RL)手法を用いる。
階層型強化学習(HRL)フレームワークとトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-10T04:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。