論文の概要: Deep Reinforcement Learning for mmWave Initial Beam Alignment
- arxiv url: http://arxiv.org/abs/2302.08969v1
- Date: Fri, 17 Feb 2023 16:10:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 14:06:46.858516
- Title: Deep Reinforcement Learning for mmWave Initial Beam Alignment
- Title(参考訳): mm波初期ビームアライメントの深部強化学習
- Authors: Daniel Tandler, Sebastian D\"orner, Marc Gauger, Stephan ten Brink
- Abstract要約: 我々は,mmWave通信における適応初期アクセスビームアライメント問題に対する深部強化学習アルゴリズムの適用性を検討した。
深層強化学習は、新しい広範囲のアプリケーションに対処する可能性がある。
提案手法は, 実測的な問題の大きさを訓練しても性能が良くないにもかかわらず, ビームフォーミングモジュールの形で動作空間の整形を導入することにより, 性能が大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 6.240268911509346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the applicability of deep reinforcement learning algorithms to
the adaptive initial access beam alignment problem for mmWave communications
using the state-of-the-art proximal policy optimization algorithm as an
example. In comparison to recent unsupervised learning based approaches
developed to tackle this problem, deep reinforcement learning has the potential
to address a new and wider range of applications, since, in principle, no
(differentiable) model of the channel and/or the whole system is required for
training, and only agent-environment interactions are necessary to learn an
algorithm (be it online or using a recorded dataset). We show that, although
the chosen off-the-shelf deep reinforcement learning agent fails to perform
well when trained on realistic problem sizes, introducing action space shaping
in the form of beamforming modules vastly improves the performance, without
sacrificing much generalizability. Using this add-on, the agent is able to
deliver competitive performance to various state-of-the-art methods on
simulated environments, even under realistic problem sizes. This demonstrates
that through well-directed modification, deep reinforcement learning may have a
chance to compete with other approaches in this area, opening up many
straightforward extensions to other/similar scenarios.
- Abstract(参考訳): そこで本研究では,mm波通信における適応型初期アクセスビームアライメント問題に対する深層強化学習アルゴリズムの適用性について検討した。
この問題に対処するために開発された最近の教師なし学習ベースのアプローチと比較して、ディープ強化学習は、原則として、チャネルと/またはシステム全体の(微分可能な)モデルが不要であり、アルゴリズム(オンラインまたは記録されたデータセット)を学習するためにはエージェントと環境の相互作用のみが必要であるため、より広い範囲のアプリケーションに対処する可能性がある。
既定の深層強化学習エージェントは,現実的な問題サイズのトレーニングではうまく機能しないが,ビームフォーミングモジュールの形での動作空間整形の導入は,汎用性を犠牲にすることなく,性能を大幅に向上させる。
このアドオンを使うことで、エージェントは現実的な問題サイズであっても、シミュレートされた環境で様々な最先端のメソッドに競争力のあるパフォーマンスを提供することができる。
これは、高度に間接的な修正によって、深層強化学習がこの分野の他のアプローチと競合する可能性があることを示し、他の/類似シナリオへの多くの簡単な拡張を開放する。
関連論文リスト
- Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Local Methods with Adaptivity via Scaling [38.99428012275441]
本稿では,局所的な学習手法と適応的アプローチを融合して,効率的な分散学習手法を開発することを目的とする。
従来のローカルSGD法について検討し,スケーリング機能により拡張する。
理論的解析に加えて,ニューラルネットワークのトレーニングにより,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-06-02T19:50:05Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Generalization of Deep Reinforcement Learning for Jammer-Resilient
Frequency and Power Allocation [4.436632973105495]
我々は,深層強化学習モデルの一般化能力を強調しつつ,結合周波数と電力配分の問題に取り組む。
従来は見つからなかった無線ネットワーク上で,提案手法のトレーニングと推論性能の向上について検討した。
エンド・ツー・エンドのソリューションは組込みソフトウェア定義無線で実装され、オーバー・ザ・エア評価を用いて検証された。
論文 参考訳(メタデータ) (2023-02-04T22:15:32Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Sample-Efficient, Exploration-Based Policy Optimisation for Routing
Problems [2.6782615615913348]
本稿では,エントロピーに基づく新しい強化学習手法を提案する。
さらに、我々は、期待したリターンを最大化する、政治以外の強化学習手法を設計する。
我々のモデルは様々な経路問題に一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-05-31T09:51:48Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Unbiased Deep Reinforcement Learning: A General Training Framework for
Existing and Future Algorithms [3.7050607140679026]
本稿では、概念的に理解可能で、強化学習のための全ての実行可能なアルゴリズムに一般化し易い、新しいトレーニングフレームワークを提案する。
我々はモンテカルロサンプリングを用いて生のデータ入力を実現し、マルコフ決定プロセスシーケンスを達成するためにバッチでそれらを訓練する。
我々は、典型的な離散的かつ連続的なシナリオを扱うために、新しいフレームワークに埋め込まれたアルゴリズムをいくつか提案する。
論文 参考訳(メタデータ) (2020-05-12T01:51:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。