論文の概要: Koopman-Based Generalization of Deep Reinforcement Learning With Application to Wireless Communications
- arxiv url: http://arxiv.org/abs/2503.02961v1
- Date: Tue, 04 Mar 2025 19:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:50:45.139275
- Title: Koopman-Based Generalization of Deep Reinforcement Learning With Application to Wireless Communications
- Title(参考訳): Koopmanによる深層強化学習の一般化と無線通信への応用
- Authors: Atefeh Termehchi, Ekram Hossain, Isaac Woungang,
- Abstract要約: 深層強化学習(Deep Reinforcement Learning, DRL)は、無線通信を含む様々な科学・工学分野の進歩を推進する機械学習技術である。
DRLでは、トレーニングデータは逐次的であり、独立ではなく、同一に分散している(つまり、従来の情報理論の手法は一般化可能性解析には適さない)。
本稿では,DRLの一般化性を評価するための新しい解析手法を提案する。
- 参考スコア(独自算出の注目度): 11.472232944923558
- License:
- Abstract: Deep Reinforcement Learning (DRL) is a key machine learning technology driving progress across various scientific and engineering fields, including wireless communication. However, its limited interpretability and generalizability remain major challenges. In supervised learning, generalizability is commonly evaluated through the generalization error using information-theoretic methods. In DRL, the training data is sequential and not independent and identically distributed (i.i.d.), rendering traditional information-theoretic methods unsuitable for generalizability analysis. To address this challenge, this paper proposes a novel analytical method for evaluating the generalizability of DRL. Specifically, we first model the evolution of states and actions in trained DRL algorithms as unknown discrete, stochastic, and nonlinear dynamical functions. Then, we employ a data-driven identification method, the Koopman operator, to approximate these functions, and propose two interpretable representations. Based on these interpretable representations, we develop a rigorous mathematical approach to evaluate the generalizability of DRL algorithms. This approach is formulated using the spectral feature analysis of the Koopman operator, leveraging the H_\infty norm. Finally, we apply this generalization analysis to compare the soft actor-critic method, widely recognized as a robust DRL approach, against the proximal policy optimization algorithm for an unmanned aerial vehicle-assisted mmWave wireless communication scenario.
- Abstract(参考訳): 深層強化学習(Deep Reinforcement Learning, DRL)は、無線通信を含む様々な科学・工学分野の進歩を推進する機械学習技術である。
しかし、その限定的な解釈可能性と一般化性は依然として大きな課題である。
教師付き学習において、一般化可能性は情報理論法を用いて一般化誤差を通じて一般に評価される。
DRLでは、トレーニングデータは逐次的であり、独立ではなく、同一に分散している(つまり、従来の情報理論の手法は一般化可能性解析には適さない)。
そこで本研究では,DRLの一般化性を評価するための新しい解析手法を提案する。
具体的には、訓練されたDRLアルゴリズムにおける状態と動作の進化を、未知の離散的、確率的、非線形動的関数としてモデル化する。
次に,データ駆動型識別手法であるクープマン演算子を用いて,これらの関数を近似し,解釈可能な2つの表現を提案する。
これらの解釈可能な表現に基づいて、DRLアルゴリズムの一般化性を評価するための厳密な数学的アプローチを開発する。
このアプローチは、H_\inftyノルムを利用するクープマン作用素のスペクトル特徴解析を用いて定式化される。
最後に、この一般化分析を適用し、無人航空機支援mmWave無線通信シナリオの近似ポリシー最適化アルゴリズムに対して、強靭なDRLアプローチとして広く認識されているソフトアクター批判手法の比較を行う。
関連論文リスト
- An MRP Formulation for Supervised Learning: Generalized Temporal Difference Learning Models [20.314426291330278]
従来の統計的学習では、データポイントは独立して同じ分布(d)であると仮定される。
本稿では、データポイントを相互接続したものとして認識し、データモデリングにマルコフ報酬プロセス(MRP)を用いる、対照的な視点を示す。
我々は、強化学習(RL)における政治政策評価問題として、典型的教師付き学習を再構成し、一般化時間差学習アルゴリズム(TD)を解法として導入する。
論文 参考訳(メタデータ) (2024-04-23T21:02:58Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Single Domain Generalization via Normalised Cross-correlation Based
Convolutions [14.306250516592304]
単一ドメインの一般化は、単一のソースからのデータを使用して堅牢なモデルをトレーニングすることを目的としている。
本稿では、重みと入力特徴パッチの間の正規化相互相関を計算するXCNormという演算子を提案する。
この演算子で構成されるディープニューラルネットワークは、一般的な意味分布シフトに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2023-07-12T04:15:36Z) - Koopman Kernel Regression [6.116741319526748]
クープマン作用素理論は線形時間不変(LTI)ODEによる予測のキャラクタリゼーションに有効なパラダイムであることを示す。
我々は、LTI力学系への変換のみにまたがる、普遍的なクープマン不変核再生ヒルベルト空間(RKHS)を導出する。
実験では、Koopman演算子やシーケンシャルデータ予測器と比較して予測性能が優れていることを示した。
論文 参考訳(メタデータ) (2023-05-25T16:22:22Z) - A Strong Baseline for Batch Imitation Learning [25.392006064406967]
厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。
このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
論文 参考訳(メタデータ) (2023-02-06T14:03:33Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Cross-Trajectory Representation Learning for Zero-Shot Generalization in
RL [21.550201956884532]
高次元の観察空間上のいくつかのタスクで学んだポリシーを、トレーニング中に見えない同様のタスクに一般化する。
この課題に対する多くの有望なアプローチは、RLを2つの関数を同時に訓練するプロセスと見なしている。
本稿では,RLエージェント内で動作するクロストラジェクトリ表現学習(CTRL, Cross-Trajectory Representation Learning)を提案する。
論文 参考訳(メタデータ) (2021-06-04T00:43:10Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。