論文の概要: Computing the Feedback Capacity of Finite State Channels using
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2001.09685v1
- Date: Mon, 27 Jan 2020 10:53:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 08:33:22.739936
- Title: Computing the Feedback Capacity of Finite State Channels using
Reinforcement Learning
- Title(参考訳): 強化学習を用いた有限状態チャネルのフィードバック能力の計算
- Authors: Ziv Aharoni, Oron Sabag, Haim Henry Permuter
- Abstract要約: 強化学習(RL)を用いたメモリを用いたチャネルのフィードバック能力の新たな計算法を提案する。
RLは、大きなアルファベットサイズを持つユニフィラー有限状態チャネルのフィードバックキャパシティを推定するために使用できる。
3進アルファベットで有名なIsingチャネルのフィードバック容量を解析的に解くことで,本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 6.6389732792316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel method to compute the feedback capacity of
channels with memory using reinforcement learning (RL). In RL, one seeks to
maximize cumulative rewards collected in a sequential decision-making
environment. This is done by collecting samples of the underlying environment
and using them to learn the optimal decision rule. The main advantage of this
approach is its computational efficiency, even in high dimensional problems.
Hence, RL can be used to estimate numerically the feedback capacity of unifilar
finite state channels (FSCs) with large alphabet size. The outcome of the RL
algorithm sheds light on the properties of the optimal decision rule, which in
our case, is the optimal input distribution of the channel. These insights can
be converted into analytic, single-letter capacity expressions by solving
corresponding lower and upper bounds. We demonstrate the efficiency of this
method by analytically solving the feedback capacity of the well-known Ising
channel with a ternary alphabet. We also provide a simple coding scheme that
achieves the feedback capacity.
- Abstract(参考訳): 本稿では,強化学習(RL)を用いたメモリを用いたチャネルのフィードバック能力の計算手法を提案する。
RLでは、逐次的な意思決定環境で収集された累積報酬を最大化する。
これは、基盤となる環境のサンプルを収集し、最適な決定ルールを学ぶためにそれらを使用する。
このアプローチの主な利点は、高次元問題においてもその計算効率である。
したがって、RLは、大きなアルファベットサイズを持つユニフィラー有限状態チャネル(FSC)のフィードバック容量を数値的に推定することができる。
rlアルゴリズムの結果は、チャネルの最適入力分布である最適決定規則の性質に光を当てている。
これらの洞察は、対応する下限と上限を解いて、分析的かつ単一レターのキャパシティ表現に変換することができる。
3進アルファベットで有名なIsingチャネルのフィードバック容量を解析的に解くことで,本手法の有効性を実証する。
また、フィードバック能力を達成するための簡単なコーディングスキームも提供します。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - On Sample-Efficient Offline Reinforcement Learning: Data Diversity,
Posterior Sampling, and Beyond [29.449446595110643]
本稿では、オフラインRLにおけるカバレッジ対策の以前の概念を仮定したデータ多様性の概念を提案する。
オフラインRLのためのモデルなしPSベースのアルゴリズムは、自然界において頻繁(即ち最悪の場合)な準最適境界を持つ新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-01-06T20:52:04Z) - Probabilistic Inference in Reinforcement Learning Done Right [37.31057328219418]
強化学習における一般的な見解は、マルコフ決定過程(MDP)のグラフィカルモデルに確率論的推論として問題を提起している。
この量を近似するための従来のアプローチは任意に貧弱であり、真の統計的推論を実装しないアルゴリズムに繋がる。
我々はまず、この量が、後悔によって測定されるように、効率的に探索するポリシーを生成するために実際に利用できることを明らかにした。
論文 参考訳(メタデータ) (2023-11-22T10:23:14Z) - Beyond Average Return in Markov Decision Processes [49.157108194438635]
我々は、分散強化学習(DistRL)のより一般的なフレームワークであっても、一般化された手段のみが正確に最適化可能であることを証明した。
得られた推定器の誤差境界を提供し、このアプローチの潜在的な可能性とその限界について議論する。
論文 参考訳(メタデータ) (2023-10-31T08:36:41Z) - Posterior Sampling with Delayed Feedback for Reinforcement Learning with
Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。
我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。
遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文 参考訳(メタデータ) (2023-10-29T06:12:43Z) - Towards Explainable Machine Learning: The Effectiveness of Reservoir
Computing in Wireless Receive Processing [21.843365090029987]
本稿では,Reservoir Computing (RC) と呼ばれる一般的な学習手法を適用し,チャネル等化の具体的課題について検討する。
RCは従来の手法や学習に基づく手法に比べて優れた性能を示した。
また,これをシミュレーションにより最適化することにより,受信処理/シンボル検出性能の向上を示す。
論文 参考訳(メタデータ) (2023-10-08T00:44:35Z) - Graph Neural Network Autoencoders for Efficient Quantum Circuit
Optimisation [69.43216268165402]
我々は、量子回路の最適化にグラフニューラルネットワーク(GNN)オートエンコーダの使い方を初めて提示する。
我々は、量子回路から有向非巡回グラフを構築し、そのグラフを符号化し、その符号化を用いてRL状態を表現する。
我々の手法は、非常に大規模なRL量子回路最適化に向けた最初の現実的な第一歩である。
論文 参考訳(メタデータ) (2023-03-06T16:51:30Z) - Data-Driven Optimization of Directed Information over Discrete Alphabets [15.372626012233736]
方向性情報(DI)は、逐次解析モデルの研究と分析のための基本的な尺度である。
離散入力空間上でのDIのための新しい推定最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-02T12:25:40Z) - Deep Learning Methods for Joint Optimization of Beamforming and
Fronthaul Quantization in Cloud Radio Access Networks [12.838832724944615]
クラウド無線ネットワーク(C-RAN)システムでは,AP間の協調ビームフォーミングとフロントハウライズ戦略が不可欠である。
非次元量問題は、AP当たりの電力とフロントホール容量の制約から導かれる。
我々は、よく訓練された深層ニューラルネットワーク(DNN)が存在する深層学習最適化モジュールについて検討する。
提案手法の利点を数値計算により検証した。
論文 参考訳(メタデータ) (2021-07-06T10:27:43Z) - Learning Centric Power Allocation for Edge Intelligence [84.16832516799289]
分散データを収集し、エッジで機械学習を実行するエッジインテリジェンスが提案されている。
本稿では,経験的分類誤差モデルに基づいて無線リソースを割り当てるLCPA法を提案する。
実験の結果,提案したLCPAアルゴリズムは,他のパワーアロケーションアルゴリズムよりも有意に優れていた。
論文 参考訳(メタデータ) (2020-07-21T07:02:07Z) - Channel Assignment in Uplink Wireless Communication using Machine
Learning Approach [54.012791474906514]
本稿では,アップリンク無線通信システムにおけるチャネル割り当て問題について検討する。
我々の目標は、整数チャネル割り当て制約を受ける全ユーザの総和率を最大化することです。
計算複雑性が高いため、機械学習アプローチは計算効率のよい解を得るために用いられる。
論文 参考訳(メタデータ) (2020-01-12T15:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。