論文の概要: Computing the Feedback Capacity of Finite State Channels using
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2001.09685v1
- Date: Mon, 27 Jan 2020 10:53:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 08:33:22.739936
- Title: Computing the Feedback Capacity of Finite State Channels using
Reinforcement Learning
- Title(参考訳): 強化学習を用いた有限状態チャネルのフィードバック能力の計算
- Authors: Ziv Aharoni, Oron Sabag, Haim Henry Permuter
- Abstract要約: 強化学習(RL)を用いたメモリを用いたチャネルのフィードバック能力の新たな計算法を提案する。
RLは、大きなアルファベットサイズを持つユニフィラー有限状態チャネルのフィードバックキャパシティを推定するために使用できる。
3進アルファベットで有名なIsingチャネルのフィードバック容量を解析的に解くことで,本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 6.6389732792316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel method to compute the feedback capacity of
channels with memory using reinforcement learning (RL). In RL, one seeks to
maximize cumulative rewards collected in a sequential decision-making
environment. This is done by collecting samples of the underlying environment
and using them to learn the optimal decision rule. The main advantage of this
approach is its computational efficiency, even in high dimensional problems.
Hence, RL can be used to estimate numerically the feedback capacity of unifilar
finite state channels (FSCs) with large alphabet size. The outcome of the RL
algorithm sheds light on the properties of the optimal decision rule, which in
our case, is the optimal input distribution of the channel. These insights can
be converted into analytic, single-letter capacity expressions by solving
corresponding lower and upper bounds. We demonstrate the efficiency of this
method by analytically solving the feedback capacity of the well-known Ising
channel with a ternary alphabet. We also provide a simple coding scheme that
achieves the feedback capacity.
- Abstract(参考訳): 本稿では,強化学習(RL)を用いたメモリを用いたチャネルのフィードバック能力の計算手法を提案する。
RLでは、逐次的な意思決定環境で収集された累積報酬を最大化する。
これは、基盤となる環境のサンプルを収集し、最適な決定ルールを学ぶためにそれらを使用する。
このアプローチの主な利点は、高次元問題においてもその計算効率である。
したがって、RLは、大きなアルファベットサイズを持つユニフィラー有限状態チャネル(FSC)のフィードバック容量を数値的に推定することができる。
rlアルゴリズムの結果は、チャネルの最適入力分布である最適決定規則の性質に光を当てている。
これらの洞察は、対応する下限と上限を解いて、分析的かつ単一レターのキャパシティ表現に変換することができる。
3進アルファベットで有名なIsingチャネルのフィードバック容量を解析的に解くことで,本手法の有効性を実証する。
また、フィードバック能力を達成するための簡単なコーディングスキームも提供します。
関連論文リスト
- Sample and Oracle Efficient Reinforcement Learning for MDPs with Linearly-Realizable Value Functions [10.225358400539719]
本稿では,線形作用が特徴写像に一般化される決定法(MDP)の効率的な強化アルゴリズムを提案する。
具体的には、この設定において、最適に近いポリシーを効率的に見つける新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-07T14:38:05Z) - Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。
合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。
我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文 参考訳(メタデータ) (2024-08-18T14:25:44Z) - A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback [6.578074497549894]
Inverse Reinforcement Learning (IRL) と Reinforcement Learning from Human Feedback (RLHF) は報酬学習における重要な方法論である。
本稿では,オフライン報酬学習に適した新しい線形プログラミング(LP)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-20T23:59:26Z) - Probabilistic Inference in Reinforcement Learning Done Right [37.31057328219418]
強化学習における一般的な見解は、マルコフ決定過程(MDP)のグラフィカルモデルに確率論的推論として問題を提起している。
この量を近似するための従来のアプローチは任意に貧弱であり、真の統計的推論を実装しないアルゴリズムに繋がる。
我々はまず、この量が、後悔によって測定されるように、効率的に探索するポリシーを生成するために実際に利用できることを明らかにした。
論文 参考訳(メタデータ) (2023-11-22T10:23:14Z) - Beyond Average Return in Markov Decision Processes [49.157108194438635]
我々は、分散強化学習(DistRL)のより一般的なフレームワークであっても、一般化された手段のみが正確に最適化可能であることを証明した。
得られた推定器の誤差境界を提供し、このアプローチの潜在的な可能性とその限界について議論する。
論文 参考訳(メタデータ) (2023-10-31T08:36:41Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Graph Neural Network Autoencoders for Efficient Quantum Circuit
Optimisation [69.43216268165402]
我々は、量子回路の最適化にグラフニューラルネットワーク(GNN)オートエンコーダの使い方を初めて提示する。
我々は、量子回路から有向非巡回グラフを構築し、そのグラフを符号化し、その符号化を用いてRL状態を表現する。
我々の手法は、非常に大規模なRL量子回路最適化に向けた最初の現実的な第一歩である。
論文 参考訳(メタデータ) (2023-03-06T16:51:30Z) - Data-Driven Optimization of Directed Information over Discrete Alphabets [15.372626012233736]
方向性情報(DI)は、逐次解析モデルの研究と分析のための基本的な尺度である。
離散入力空間上でのDIのための新しい推定最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-02T12:25:40Z) - Deep Learning Methods for Joint Optimization of Beamforming and
Fronthaul Quantization in Cloud Radio Access Networks [12.838832724944615]
クラウド無線ネットワーク(C-RAN)システムでは,AP間の協調ビームフォーミングとフロントハウライズ戦略が不可欠である。
非次元量問題は、AP当たりの電力とフロントホール容量の制約から導かれる。
我々は、よく訓練された深層ニューラルネットワーク(DNN)が存在する深層学習最適化モジュールについて検討する。
提案手法の利点を数値計算により検証した。
論文 参考訳(メタデータ) (2021-07-06T10:27:43Z) - Learning Centric Power Allocation for Edge Intelligence [84.16832516799289]
分散データを収集し、エッジで機械学習を実行するエッジインテリジェンスが提案されている。
本稿では,経験的分類誤差モデルに基づいて無線リソースを割り当てるLCPA法を提案する。
実験の結果,提案したLCPAアルゴリズムは,他のパワーアロケーションアルゴリズムよりも有意に優れていた。
論文 参考訳(メタデータ) (2020-07-21T07:02:07Z) - Channel Assignment in Uplink Wireless Communication using Machine
Learning Approach [54.012791474906514]
本稿では,アップリンク無線通信システムにおけるチャネル割り当て問題について検討する。
我々の目標は、整数チャネル割り当て制約を受ける全ユーザの総和率を最大化することです。
計算複雑性が高いため、機械学習アプローチは計算効率のよい解を得るために用いられる。
論文 参考訳(メタデータ) (2020-01-12T15:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。