論文の概要: Regret Bounds for Information-Directed Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.04640v1
- Date: Thu, 9 Jun 2022 17:36:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 14:08:44.219354
- Title: Regret Bounds for Information-Directed Reinforcement Learning
- Title(参考訳): 情報指向強化学習のためのレグレト境界
- Authors: Botao Hao and Tor Lattimore
- Abstract要約: 情報指向サンプリング(IDS)は、強化学習(RL)のためのデータ効率アルゴリズムとしての可能性を明らかにした。
本研究では,学習目標に関する情報比率と累積情報ゲインを結合する新しい情報理論ツールを開発する。
- 参考スコア(独自算出の注目度): 40.783225558237746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information-directed sampling (IDS) has revealed its potential as a
data-efficient algorithm for reinforcement learning (RL). However, theoretical
understanding of IDS for Markov Decision Processes (MDPs) is still limited. We
develop novel information-theoretic tools to bound the information ratio and
cumulative information gain about the learning target. Our theoretical results
shed light on the importance of choosing the learning target such that the
practitioners can balance the computation and regret bounds. As a consequence,
we derive prior-free Bayesian regret bounds for vanilla-IDS which learns the
whole environment under tabular finite-horizon MDPs. In addition, we propose a
computationally-efficient regularized-IDS that maximizes an additive form
rather than the ratio form and show that it enjoys the same regret bound as
vanilla-IDS. With the aid of rate-distortion theory, we improve the regret
bound by learning a surrogate, less informative environment. Furthermore, we
extend our analysis to linear MDPs and prove similar regret bounds for Thompson
sampling as a by-product.
- Abstract(参考訳): 情報指向サンプリング(IDS)は、強化学習(RL)のためのデータ効率アルゴリズムとしての可能性を明らかにした。
しかし、マルコフ決定過程(MDP)に対するIDSの理論的理解はまだ限られている。
本研究では,学習目標に関する情報比率と累積情報ゲインを結合する新しい情報理論ツールを開発する。
理論的結果は,学習対象を選択することの重要性を浮き彫りにして,実践者が計算と後悔の境界のバランスをとることができるようにした。
その結果,表層有限水平MDPの下で環境全体を学習するバニラIDSに対して,ベイズ的前自由な後悔境界を導出する。
さらに,比形式ではなく加法形式を最大化する計算効率の高い正則化IDSを提案し,バニラIDSと同じ後悔関係にあることを示す。
速度歪曲理論の助けを借りて、サロゲートの少ない情報環境を学習することで、後悔の限界を改善する。
さらに, 線形MDPに解析を拡張し, 副生成物としてのトンプソンサンプリングに類似した後悔境界を証明した。
関連論文リスト
- Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - Information Directed Sampling for Sparse Linear Bandits [42.232086950768476]
様々な問題事例における既存の下位境界にほぼ一致する情報理論ベイズ的後悔境界のクラスを開発する。
数基のベースラインに対して, スパースIDSによる顕著な後悔の低減が認められた。
論文 参考訳(メタデータ) (2021-05-29T10:26:23Z) - Perturbation Theory for the Information Bottleneck [6.117084972237769]
情報ボトルネック (IB) は、データから関連情報を抽出する手法である。
IB問題の非線形性は、一般に計算コストが高く解析的に難解である。
IB法に対する摂動理論を導出し,学習開始の完全な特徴を報告した。
論文 参考訳(メタデータ) (2021-05-28T16:59:01Z) - Bounding Information Leakage in Machine Learning [26.64770573405079]
本稿では,情報漏洩の基本的な境界について検討する。
最悪の会員推論攻撃の成功率を特定し、拘束します。
感度の高い属性とモデルパラメータの間の相互情報の境界を導出する。
論文 参考訳(メタデータ) (2021-05-09T08:49:14Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。