論文の概要: Reinforcement learning for PHY layer communications
- arxiv url: http://arxiv.org/abs/2106.11595v1
- Date: Tue, 22 Jun 2021 08:02:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 15:05:58.231835
- Title: Reinforcement learning for PHY layer communications
- Title(参考訳): PHY層通信のための強化学習
- Authors: Philippe Mary (IETR), Visa Koivunen, Christophe Moy (IETR)
- Abstract要約: 第9.2節では、RL問題に対処するために必要な基本理論をすべて提示する。
第9.3節では、RL問題のモデル化にも重点を置いている。
この章は第9.4節で締めくくられ、RLの動向を予見する。
- 参考スコア(独自算出の注目度): 16.87674275351593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this chapter, we will give comprehensive examples of applying RL in
optimizing the physical layer of wireless communications by defining different
class of problems and the possible solutions to handle them. In Section 9.2, we
present all the basic theory needed to address a RL problem, i.e. Markov
decision process (MDP), Partially observable Markov decision process (POMDP),
but also two very important and widely used algorithms for RL, i.e. the
Q-learning and SARSA algorithms. We also introduce the deep reinforcement
learning (DRL) paradigm and the section ends with an introduction to the
multi-armed bandits (MAB) framework. Section 9.3 focuses on some toy examples
to illustrate how the basic concepts of RL are employed in communication
systems. We present applications extracted from literature with simplified
system models using similar notation as in Section 9.2 of this Chapter. In
Section 9.3, we also focus on modeling RL problems, i.e. how action and state
spaces and rewards are chosen. The Chapter is concluded in Section 9.4 with a
prospective thought on RL trends and it ends with a review of a broader state
of the art in Section 9.5.
- Abstract(参考訳): 本章では,無線通信の物理層を最適化するためにrlを適用する際の包括的例を示す。
第9.2節では、RL問題に対処するために必要な基本理論をすべて提示する。
マルコフ決定プロセス (MDP) は、部分的に観測可能なマルコフ決定プロセス (POMDP) であり、またRLのための非常に重要で広く使われているアルゴリズムである。
Q-learningとSARSAアルゴリズム。
深層強化学習(DRL)のパラダイムも導入し,マルチアーム・バンディット(MAB)フレームワークの導入で終了する。
第9.3節は、RLの基本概念が通信システムにどのように使われているかを説明するためのおもちゃの例に焦点を当てている。
本章の9.2節と同様の表記法を用いて,簡易なシステムモデルを用いた文献から抽出した応用について述べる。
第9.3節では、RL問題のモデリングにも焦点をあてている。
行動と国家の空間と報酬の 選択方法です
この章は第9.4節でRLの動向を予見し、第9.5節で芸術のより広い状態のレビューで終わる。
関連論文リスト
- RLSF: Reinforcement Learning via Symbolic Feedback [11.407319705797242]
証明フィードバック(RLSF)による強化学習(Reinforcement Learning)と呼ばれる新しい微調整パラダイムを提案する。
RLSFでは、微調整されたLLMはRLエージェントと見なされ、環境は推論やドメイン知識ツールへのアクセスが可能である。
RLSFに基づくLLMの微調整は、5つの異なるアプリケーションにおいて従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T18:49:59Z) - Knowledge Graph Reasoning with Self-supervised Reinforcement Learning [30.359557545737747]
本稿では,RLトレーニング前の政策ネットワークを温めるための自己指導型事前学習手法を提案する。
教師付き学習段階において、エージェントはポリシーネットワークに基づいて行動を選択し、生成されたラベルから学習する。
我々のSSRLモデルは、すべてのHits@kおよび平均相互ランク(MRR)メトリクスにおいて、現在の最先端結果と一致または超えていることを示す。
論文 参考訳(メタデータ) (2024-05-22T13:39:33Z) - Reinforcement Replaces Supervision: Query focused Summarization using
Deep Reinforcement Learning [43.123290672073814]
クエリに基づいて文書から要約を生成するシステムを扱う。
Reinforcement Learning (RL) が自然言語生成のための Supervised Learning (SL) の一般化を提供するという知見に触発されて,本課題に RL ベースのアプローチを用いる。
我々は、ROUGE、BLEU、Semantic similarityといった様々な報酬信号に基づいて訓練された複数のポリシーグラディエントネットワークを開発する。
論文 参考訳(メタデータ) (2023-11-29T10:38:16Z) - Learning Bellman Complete Representations for Offline Policy Evaluation [51.96704525783913]
サンプル効率のよいOPEの2つの条件は、ベルマン完全性とカバレッジである。
我々の表現は、政治外RLのために開発された従来の表現学習手法と比較して、OPEをより良くできることを示す。
論文 参考訳(メタデータ) (2022-07-12T21:02:02Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。
我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文 参考訳(メタデータ) (2022-02-09T15:01:59Z) - Dynamic Channel Access via Meta-Reinforcement Learning [0.8223798883838329]
モデル非依存型メタラーニング(MAML)の手法を取り入れたメタDRLフレームワークを提案する。
同じ分布から引き出された異なるタスクに適応するためには、勾配降下がわずかに必要であることが示される。
論文 参考訳(メタデータ) (2021-12-24T15:04:43Z) - Exploring Neural Models for Query-Focused Summarization [74.41256438059256]
クエリ中心の要約(QFS)に対するニューラルネットワークの体系的な探索を行う。
本稿では,QMSumデータセットの最先端性能を最大3.38ROUGE-1,3.72ROUGE-2,3.28ROUGE-Lのマージンで達成する2つのモデル拡張を提案する。
論文 参考訳(メタデータ) (2021-12-14T18:33:29Z) - Explainable Reinforcement Learning for Broad-XAI: A Conceptual Framework
and Survey [0.7366405857677226]
強化学習(Reinforcement Learning, RL)法は、ブロードXAIの開発に必要な認知モデルのための潜在的なバックボーンを提供する。
RLは、さまざまなシーケンシャルな意思決定問題の解決に成功している一連のアプローチである。
本稿では,現在のXRL研究を統一し,Broad-XAI開発のバックボーンとしてRLを用いるCausal XRL Framework (CXF) という概念的フレームワークを導入することを目的とする。
論文 参考訳(メタデータ) (2021-08-20T05:18:50Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。