Fugu-MT 論文翻訳(概要): Computing the Feedback Capacity of Finite State Channels using Reinforcement Learning

論文の概要: Computing the Feedback Capacity of Finite State Channels using Reinforcement Learning

arxiv url: http://arxiv.org/abs/2001.09685v1
Date: Mon, 27 Jan 2020 10:53:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-06 08:33:22.739936
Title: Computing the Feedback Capacity of Finite State Channels using Reinforcement Learning
Title（参考訳）: 強化学習を用いた有限状態チャネルのフィードバック能力の計算
Authors: Ziv Aharoni, Oron Sabag, Haim Henry Permuter
Abstract要約: 強化学習(RL)を用いたメモリを用いたチャネルのフィードバック能力の新たな計算法を提案する。 RLは、大きなアルファベットサイズを持つユニフィラー有限状態チャネルのフィードバックキャパシティを推定するために使用できる。 3進アルファベットで有名なIsingチャネルのフィードバック容量を解析的に解くことで,本手法の有効性を実証する。
参考スコア（独自算出の注目度）: 6.6389732792316
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose a novel method to compute the feedback capacity of channels with memory using reinforcement learning (RL). In RL, one seeks to maximize cumulative rewards collected in a sequential decision-making environment. This is done by collecting samples of the underlying environment and using them to learn the optimal decision rule. The main advantage of this approach is its computational efficiency, even in high dimensional problems. Hence, RL can be used to estimate numerically the feedback capacity of unifilar finite state channels (FSCs) with large alphabet size. The outcome of the RL algorithm sheds light on the properties of the optimal decision rule, which in our case, is the optimal input distribution of the channel. These insights can be converted into analytic, single-letter capacity expressions by solving corresponding lower and upper bounds. We demonstrate the efficiency of this method by analytically solving the feedback capacity of the well-known Ising channel with a ternary alphabet. We also provide a simple coding scheme that achieves the feedback capacity.
Abstract（参考訳）: 本稿では,強化学習(RL)を用いたメモリを用いたチャネルのフィードバック能力の計算手法を提案する。 RLでは、逐次的な意思決定環境で収集された累積報酬を最大化する。これは、基盤となる環境のサンプルを収集し、最適な決定ルールを学ぶためにそれらを使用する。このアプローチの主な利点は、高次元問題においてもその計算効率である。したがって、RLは、大きなアルファベットサイズを持つユニフィラー有限状態チャネル(FSC)のフィードバック容量を数値的に推定することができる。 rlアルゴリズムの結果は、チャネルの最適入力分布である最適決定規則の性質に光を当てている。これらの洞察は、対応する下限と上限を解いて、分析的かつ単一レターのキャパシティ表現に変換することができる。 3進アルファベットで有名なIsingチャネルのフィードバック容量を解析的に解くことで,本手法の有効性を実証する。また、フィードバック能力を達成するための簡単なコーディングスキームも提供します。

関連論文リスト

Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。適切なアクションにクレジットを割り当てるには? 本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文参考訳（メタデータ） (2025-05-26T17:44:08Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Using gradient of Lagrangian function to compute efficient channels for the ideal observer [3.4084528001799064]
理想的な線形オブザーバはHotellingObserver(HO)と呼ばれ、IOのサロゲートとして用いられることがある。本研究では,ラグランジュ型損失関数の勾配を用いて,効率的なチャネルを生成する手法を提案する。
論文参考訳（メタデータ） (2025-01-31T18:34:16Z)
A Memory-Based Reinforcement Learning Approach to Integrated Sensing and Communication [52.40430937325323]
本稿では、送信機が受信機に送信した信号をメモリ付きチャネル上で送信するISACシステムについて考察する。オンライン方式でセンシングを行う場合,ISAC問題に対するキャパシティ・歪みトレードオフを定式化する。
論文参考訳（メタデータ） (2024-12-02T03:30:50Z)
Sample and Oracle Efficient Reinforcement Learning for MDPs with Linearly-Realizable Value Functions [10.225358400539719]
本稿では,線形作用が特徴写像に一般化される決定法(MDP)の効率的な強化アルゴリズムを提案する。具体的には、この設定において、最適に近いポリシーを効率的に見つける新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-09-07T14:38:05Z)
Directed Exploration in Reinforcement Learning from Linear Temporal Logic [59.707408697394534]
リニア時間論理(LTL)は強化学習におけるタスク仕様のための強力な言語である。合成された報酬信号は基本的に疎結合であり,探索が困難であることを示す。我々は、仕様をさらに活用し、それに対応するリミット決定性B"uchi Automaton(LDBA)をマルコフ報酬プロセスとしてキャストすることで、よりよい探索を実現することができることを示す。
論文参考訳（メタデータ） (2024-08-18T14:25:44Z)
A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback [6.578074497549894]
Inverse Reinforcement Learning (IRL) と Reinforcement Learning from Human Feedback (RLHF) は報酬学習における重要な方法論である。本稿では,オフライン報酬学習に適した新しい線形プログラミング(LP)フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-20T23:59:26Z)
Probabilistic Inference in Reinforcement Learning Done Right [37.31057328219418]
強化学習における一般的な見解は、マルコフ決定過程(MDP)のグラフィカルモデルに確率論的推論として問題を提起している。この量を近似するための従来のアプローチは任意に貧弱であり、真の統計的推論を実装しないアルゴリズムに繋がる。我々はまず、この量が、後悔によって測定されるように、効率的に探索するポリシーを生成するために実際に利用できることを明らかにした。
論文参考訳（メタデータ） (2023-11-22T10:23:14Z)
Beyond Average Return in Markov Decision Processes [49.157108194438635]
我々は、分散強化学習(DistRL)のより一般的なフレームワークであっても、一般化された手段のみが正確に最適化可能であることを証明した。得られた推定器の誤差境界を提供し、このアプローチの潜在的な可能性とその限界について議論する。
論文参考訳（メタデータ） (2023-10-31T08:36:41Z)
Posterior Sampling with Delayed Feedback for Reinforcement Learning with Linear Function Approximation [62.969796245827006]
Delayed-PSVI は楽観的な値に基づくアルゴリズムであり、後続サンプリングによる雑音摂動により値関数空間を探索する。我々のアルゴリズムは、未知の遅延が存在する場合に、$widetildeO(sqrtd3H3 T + d2H2 E[tau]$最悪の後悔を実現する。遅延LPSVIのための勾配に基づく近似サンプリングスキームをLangevin動的に組み込んだ。
論文参考訳（メタデータ） (2023-10-29T06:12:43Z)
Graph Neural Network Autoencoders for Efficient Quantum Circuit Optimisation [69.43216268165402]
我々は、量子回路の最適化にグラフニューラルネットワーク(GNN)オートエンコーダの使い方を初めて提示する。我々は、量子回路から有向非巡回グラフを構築し、そのグラフを符号化し、その符号化を用いてRL状態を表現する。我々の手法は、非常に大規模なRL量子回路最適化に向けた最初の現実的な第一歩である。
論文参考訳（メタデータ） (2023-03-06T16:51:30Z)
Data-Driven Optimization of Directed Information over Discrete Alphabets [15.372626012233736]
方向性情報(DI)は、逐次解析モデルの研究と分析のための基本的な尺度である。離散入力空間上でのDIのための新しい推定最適化フレームワークを提案する。
論文参考訳（メタデータ） (2023-01-02T12:25:40Z)
Deep Learning Methods for Joint Optimization of Beamforming and Fronthaul Quantization in Cloud Radio Access Networks [12.838832724944615]
クラウド無線ネットワーク(C-RAN)システムでは,AP間の協調ビームフォーミングとフロントハウライズ戦略が不可欠である。非次元量問題は、AP当たりの電力とフロントホール容量の制約から導かれる。我々は、よく訓練された深層ニューラルネットワーク(DNN)が存在する深層学習最適化モジュールについて検討する。提案手法の利点を数値計算により検証した。
論文参考訳（メタデータ） (2021-07-06T10:27:43Z)
Learning Centric Power Allocation for Edge Intelligence [84.16832516799289]
分散データを収集し、エッジで機械学習を実行するエッジインテリジェンスが提案されている。本稿では,経験的分類誤差モデルに基づいて無線リソースを割り当てるLCPA法を提案する。実験の結果,提案したLCPAアルゴリズムは,他のパワーアロケーションアルゴリズムよりも有意に優れていた。
論文参考訳（メタデータ） (2020-07-21T07:02:07Z)
Channel Assignment in Uplink Wireless Communication using Machine Learning Approach [54.012791474906514]
本稿では,アップリンク無線通信システムにおけるチャネル割り当て問題について検討する。我々の目標は、整数チャネル割り当て制約を受ける全ユーザの総和率を最大化することです。計算複雑性が高いため、機械学習アプローチは計算効率のよい解を得るために用いられる。
論文参考訳（メタデータ） (2020-01-12T15:54:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。