論文の概要: Information-Theoretic State Variable Selection for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2401.11512v1
- Date: Sun, 21 Jan 2024 14:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:10:41.560647
- Title: Information-Theoretic State Variable Selection for Reinforcement
Learning
- Title(参考訳): 強化学習のための情報理論状態変数選択
- Authors: Charles Westphal, Stephen Hailes, Mirco Musolesi
- Abstract要約: 本稿では,情報理論的基準であるTransfer Entropy Redundancy Criterion (TERC)を紹介する。
TERCは、トレーニング中に状態変数からアクションに転送されるテクステントロピーがあるかどうかを判断する。
エージェントの最終性能に影響を与えない状態から変数を確実に排除する TERC に基づくアルゴリズムを定義する。
- 参考スコア(独自算出の注目度): 4.2050490361120465
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Identifying the most suitable variables to represent the state is a
fundamental challenge in Reinforcement Learning (RL). These variables must
efficiently capture the information necessary for making optimal decisions. In
order to address this problem, in this paper, we introduce the Transfer Entropy
Redundancy Criterion (TERC), an information-theoretic criterion, which
determines if there is \textit{entropy transferred} from state variables to
actions during training. We define an algorithm based on TERC that provably
excludes variables from the state that have no effect on the final performance
of the agent, resulting in more sample efficient learning. Experimental results
show that this speed-up is present across three different algorithm classes
(represented by tabular Q-learning, Actor-Critic, and Proximal Policy
Optimization (PPO)) in a variety of environments. Furthermore, to highlight the
differences between the proposed methodology and the current state-of-the-art
feature selection approaches, we present a series of controlled experiments on
synthetic data, before generalizing to real-world decision-making tasks. We
also introduce a representation of the problem that compactly captures the
transfer of information from state variables to actions as Bayesian networks.
- Abstract(参考訳): 状態を表すのに最も適した変数を特定することは、強化学習(RL)における根本的な課題である。
これらの変数は最適な決定を行うのに必要な情報を効率的に取得する必要がある。
この問題に対処するため,本稿では,状態変数からトレーニング中の動作への「textit{entropy transfer}」が存在するかどうかを判定する情報理論的基準であるTransfer Entropy Redundancy Criterion(TERC)を導入する。
我々は,TERCに基づくアルゴリズムを定義し,エージェントの最終的な性能に影響を与えない状態から変数を確実に排除し,よりサンプル効率のよい学習を実現する。
実験結果から, このスピードアップは, 様々な環境における3種類のアルゴリズムクラス(表型Q-learning, Actor-Critic, Proximal Policy Optimization (PPO) で表される)にまたがることを示した。
さらに,提案手法と現状の特徴選択手法の違いを強調するために,実世界の意思決定タスクに一般化する前に,合成データに関する一連の制御実験を行う。
また,状態変数から行動への情報伝達をベイズネットワークとしてコンパクトに捉えた問題の表現も導入する。
関連論文リスト
- Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - State Sequences Prediction via Fourier Transform for Representation
Learning [111.82376793413746]
本研究では,表現表現を効率よく学習する新しい方法である,フーリエ変換(SPF)による状態列予測を提案する。
本研究では,状態系列における構造情報の存在を理論的に解析する。
実験により,提案手法はサンプル効率と性能の両面で,最先端のアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T14:47:02Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - A feature selection method based on Shapley values robust to concept
shift in regression [0.0]
本稿では,Shapley値と予測誤差の直接的な関係について述べる。
提案アルゴリズムは, 概念シフトのシナリオにおいて, 最先端の特徴選択手法よりも優れていることを示す。
また,シフトのない場合のアルゴリズムの頑健さを評価するために,標準状況の3つの解析を行った。
論文 参考訳(メタデータ) (2023-04-28T11:34:59Z) - An Information-Theoretic Perspective on Variance-Invariance-Covariance Regularization [52.44068740462729]
我々は、VICRegの目的に関する情報理論的な視点を示す。
我々は、VICRegの一般化を導出し、下流タスクに固有の利点を明らかにした。
既存のSSL技術よりも優れた情報理論の原理から派生したSSL手法のファミリーを紹介する。
論文 参考訳(メタデータ) (2023-03-01T16:36:25Z) - Dynamic Selection in Algorithmic Decision-making [9.172670955429906]
本稿では,内因性データを用いたオンライン学習アルゴリズムにおいて,動的選択問題を特定し,対処する。
データの内在性が決定の選択に影響を与えるため、新しいバイアス(自己充足バイアス)が発生する。
バイアスを補正するインストゥルメンタル変数ベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-28T01:41:37Z) - More Powerful Conditional Selective Inference for Generalized Lasso by
Parametric Programming [20.309302270008146]
条件付き選択的推論(si)は、データ駆動仮説の新しい統計推論フレームワークとして研究されてきた。
二次パラメトリックプログラミングに変換可能な問題のクラスに対して,より強力で一般的な条件付きSI法を提案する。
論文 参考訳(メタデータ) (2021-05-11T10:12:00Z) - Greedy Search Algorithms for Unsupervised Variable Selection: A
Comparative Study [3.4888132404740797]
本稿では,非監視変数選択に基づく次元還元について述べる。
本稿では,7つの非監視勾配変数選択アルゴリズムの臨界評価について述べる。
本稿では,FSCA(Forward selection component analysis)アルゴリズムで説明された分散の遅延実装を初めて導入し,評価する。
論文 参考訳(メタデータ) (2021-03-03T21:10:26Z) - Transfer Reinforcement Learning under Unobserved Contextual Information [16.895704973433382]
本研究では,環境条件によって状態遷移と報酬が影響を受ける伝達強化学習問題について検討する。
本研究では,デモンストレータのデータを用いて,遷移関数と報酬関数の因果境界を求める手法を開発した。
バイアスのない真値関数に収束する新しいQ学習アルゴリズムとUCB-Q学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-09T22:00:04Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。