論文の概要: A Gentle Lecture Note on Filtrations in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2008.02622v1
- Date: Thu, 6 Aug 2020 12:55:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 06:34:49.890277
- Title: A Gentle Lecture Note on Filtrations in Reinforcement Learning
- Title(参考訳): 強化学習におけるろ過に関するジェントル講義ノート
- Authors: W.J.A. van Heeswijk
- Abstract要約: このノートは、強化学習(RL)の文脈で用いられる濾過の概念に関する基本的な直観を提供することを目的としている。
濾過はRL問題を正式に定義するためにしばしば用いられるが、その意味合いは測度論の背景を持たない人には顕著ではないかもしれない。
現状の問題にのみ基づく決定は、将来的な知識を意思決定プロセスから排除するのに十分であるので、濾過の概念は不要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This note aims to provide a basic intuition on the concept of filtrations as
used in the context of reinforcement learning (RL). Filtrations are often used
to formally define RL problems, yet their implications might not be eminent for
those without a background in measure theory. Essentially, a filtration is a
construct that captures partial knowledge up to time $t$, without revealing any
future information that has already been simulated, yet not revealed to the
decision-maker. We illustrate this with simple examples from the finance domain
on both discrete and continuous outcome spaces. Furthermore, we show that the
notion of filtration is not needed, as basing decisions solely on the current
problem state (which is possible due to the Markovian property) suffices to
eliminate future knowledge from the decision-making process.
- Abstract(参考訳): 本研究の目的は,強化学習(rl)の文脈で用いられる濾過の概念に関する基礎的直観を提供することである。
フィルターはしばしばRL問題を正式に定義するために使われるが、その意味は測度理論の背景を持たない人には顕著ではないかもしれない。
本質的には、フィルタリングは、すでにシミュレーションされているが、意思決定者に公開されていない将来の情報を明らかにすることなく、t$までの部分的な知識をキャプチャするコンストラクタである。
離散的な結果空間と連続的な結果空間の両方について、金融分野の簡単な例で説明する。
さらに,現在の問題状態(マルコフ的性質によって可能)のみに基づいて決定を行うことで,意思決定プロセスから将来的な知識を排除することができるため,濾過の概念は不要であることを示す。
関連論文リスト
- Loss-Free Machine Unlearning [51.34904967046097]
我々は、再学習とラベルなしの両方の機械学習アプローチを提案する。
Retraining-freeアプローチは、損失から派生したFisher情報を利用することが多く、利用できないラベル付きデータを必要とする。
本稿では,モデル出力のl2ノルムの勾配に対して,フィッシャー情報行列の対角線を近似感度に置き換えるSelective Synaptic Dampeningアルゴリズムの拡張を提案する。
論文 参考訳(メタデータ) (2024-02-29T16:15:34Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Learning from Data Streams: An Overview and Update [1.5076964620370268]
教師付きデータストリーム学習の基本的定義と設定を再構築する。
教師付きデータストリーム学習タスクを構成するものについて、新たに検討する。
データストリームから学ぶことは、シングルパスやオンライン学習のアプローチを強制しない、という点が主な重点です。
論文 参考訳(メタデータ) (2022-12-30T14:01:41Z) - Inverse Extended Kalman Filter -- Part II: Highly Non-Linear and
Uncertain Systems [18.244578289687123]
本稿では,非線形システムにおける逆フィルタ問題に対処する逆拡張カルマンフィルタ(I-EKF)を提案する。
第1部:I-EKF(未知の入力を含む)とI-KF(未知の入力を含む)の理論
第2部:I-EKF(未知入力)とI-KF(未知入力)の理論
論文 参考訳(メタデータ) (2022-08-13T16:55:39Z) - Computational Doob's h-transforms for Online Filtering of Discretely
Observed Diffusions [65.74069050283998]
本研究では,Doobの$h$-transformsを近似する計算フレームワークを提案する。
提案手法は、最先端粒子フィルタよりも桁違いに効率的である。
論文 参考訳(メタデータ) (2022-06-07T15:03:05Z) - Deep Learning for the Benes Filter [91.3755431537592]
本研究では,メッシュのないニューラルネットワークによるベンズモデルの解の密度の表現に基づく新しい数値計算法を提案する。
ニューラルネットワークの領域選択におけるフィルタリングモデル方程式における非線形性の役割について論じる。
論文 参考訳(メタデータ) (2022-03-09T14:08:38Z) - Nonnegative OPLS for Supervised Design of Filter Banks: Application to
Image and Audio Feature Extraction [0.0]
非負のデータを扱うアプリケーションに対して,教師付き方式でフィルタバンクを設計する手法を提案する。
提案手法により得られた特徴の識別能力について, 2つの異なる, 広く研究されている応用について分析する。
論文 参考訳(メタデータ) (2021-12-22T23:58:25Z) - Dependency Aware Filter Pruning [74.69495455411987]
重要でないフィルタを割ることは、推論コストを軽減するための効率的な方法である。
以前の作業は、その重み基準やそれに対応するバッチノームスケーリング要因に従ってフィルタをプルークする。
所望の空間性を達成するために,空間性誘導正規化を動的に制御する機構を提案する。
論文 参考訳(メタデータ) (2020-05-06T07:41:22Z) - Continuous Domain Adaptation with Variational Domain-Agnostic Feature
Replay [78.7472257594881]
非定常環境での学習は、機械学習における最大の課題の1つだ。
非定常性はタスクドリフトまたはドメインドリフトによって引き起こされる。
本稿では,3つのコンポーネントから構成されるアプローチである変分ドメインに依存しない特徴リプレイを提案する。
論文 参考訳(メタデータ) (2020-03-09T19:50:24Z) - Machine Unlearning: Linear Filtration for Logit-based Classifiers [2.174931329479201]
最近制定された法律では、個人が自分の個人データがどんな風に使用されるかを決める権利を付与している。
これは、個人がデータの使用許可を取り除いた場合、どのように進むかという機械学習に挑戦する。
論文 参考訳(メタデータ) (2020-02-07T12:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。