論文の概要: A Gentle Lecture Note on Filtrations in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2008.02622v1
- Date: Thu, 6 Aug 2020 12:55:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 06:34:49.890277
- Title: A Gentle Lecture Note on Filtrations in Reinforcement Learning
- Title(参考訳): 強化学習におけるろ過に関するジェントル講義ノート
- Authors: W.J.A. van Heeswijk
- Abstract要約: このノートは、強化学習(RL)の文脈で用いられる濾過の概念に関する基本的な直観を提供することを目的としている。
濾過はRL問題を正式に定義するためにしばしば用いられるが、その意味合いは測度論の背景を持たない人には顕著ではないかもしれない。
現状の問題にのみ基づく決定は、将来的な知識を意思決定プロセスから排除するのに十分であるので、濾過の概念は不要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This note aims to provide a basic intuition on the concept of filtrations as
used in the context of reinforcement learning (RL). Filtrations are often used
to formally define RL problems, yet their implications might not be eminent for
those without a background in measure theory. Essentially, a filtration is a
construct that captures partial knowledge up to time $t$, without revealing any
future information that has already been simulated, yet not revealed to the
decision-maker. We illustrate this with simple examples from the finance domain
on both discrete and continuous outcome spaces. Furthermore, we show that the
notion of filtration is not needed, as basing decisions solely on the current
problem state (which is possible due to the Markovian property) suffices to
eliminate future knowledge from the decision-making process.
- Abstract(参考訳): 本研究の目的は,強化学習(rl)の文脈で用いられる濾過の概念に関する基礎的直観を提供することである。
フィルターはしばしばRL問題を正式に定義するために使われるが、その意味は測度理論の背景を持たない人には顕著ではないかもしれない。
本質的には、フィルタリングは、すでにシミュレーションされているが、意思決定者に公開されていない将来の情報を明らかにすることなく、t$までの部分的な知識をキャプチャするコンストラクタである。
離散的な結果空間と連続的な結果空間の両方について、金融分野の簡単な例で説明する。
さらに,現在の問題状態(マルコフ的性質によって可能)のみに基づいて決定を行うことで,意思決定プロセスから将来的な知識を排除することができるため,濾過の概念は不要であることを示す。
関連論文リスト
- Demystifying Reinforcement Learning in Production Scheduling via Explainable AI [0.7515066610159392]
深層強化学習(Dep Reinforcement Learning, DRL)はスケジューリング問題の解法としてよく用いられる手法である。
DRLエージェントは、短い計算時間で実行可能な結果を提供するのが得意だが、その推論はいまだに不透明である。
フロー生産における特殊DRLエージェントのスケジューリング決定の背後にある理由を説明するために,2つの説明可能なAI(xAI)フレームワークを適用した。
論文 参考訳(メタデータ) (2024-08-19T09:39:01Z) - Filtration learning in exact multi-parameter persistent homology and classification of time-series data [3.193388094899312]
EMPHのフィルタ学習のためのフレームワークを提案する。
フィルタパラメータに対する損失関数の勾配の正確な式を導出する。
論文 参考訳(メタデータ) (2024-06-28T00:25:43Z) - UnUnlearning: Unlearning is not sufficient for content regulation in advanced generative AI [50.61495097098296]
大規模言語モデル(LLM)におけるアンラーニングのパラダイムを再考する。
未学習の概念を導入し、未学習の知識を文脈内で再導入する。
我々は、不寛容な知識に対するコンテンツフィルタリングが不可欠であり、正確な未学習スキームでさえ、効果的なコンテンツ規制には不十分であると主張している。
論文 参考訳(メタデータ) (2024-06-27T10:24:35Z) - Combining Evidence Across Filtrations Using Adjusters [29.950578483005998]
本稿では,異なる情報集合(フィルタ)を用いて構築した電子プロセスを同一のnullに対して組み合わせる手法について検討する。
まず、調整器と呼ばれる関数のクラスが、粗いフィルターからより微細なフィルターにEプロセスを持ち上げることができることを証明します。
論文 参考訳(メタデータ) (2024-02-15T04:16:59Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Computational Doob's h-transforms for Online Filtering of Discretely
Observed Diffusions [65.74069050283998]
本研究では,Doobの$h$-transformsを近似する計算フレームワークを提案する。
提案手法は、最先端粒子フィルタよりも桁違いに効率的である。
論文 参考訳(メタデータ) (2022-06-07T15:03:05Z) - Deep Learning for the Benes Filter [91.3755431537592]
本研究では,メッシュのないニューラルネットワークによるベンズモデルの解の密度の表現に基づく新しい数値計算法を提案する。
ニューラルネットワークの領域選択におけるフィルタリングモデル方程式における非線形性の役割について論じる。
論文 参考訳(メタデータ) (2022-03-09T14:08:38Z) - Dependency Aware Filter Pruning [74.69495455411987]
重要でないフィルタを割ることは、推論コストを軽減するための効率的な方法である。
以前の作業は、その重み基準やそれに対応するバッチノームスケーリング要因に従ってフィルタをプルークする。
所望の空間性を達成するために,空間性誘導正規化を動的に制御する機構を提案する。
論文 参考訳(メタデータ) (2020-05-06T07:41:22Z) - Continuous Domain Adaptation with Variational Domain-Agnostic Feature
Replay [78.7472257594881]
非定常環境での学習は、機械学習における最大の課題の1つだ。
非定常性はタスクドリフトまたはドメインドリフトによって引き起こされる。
本稿では,3つのコンポーネントから構成されるアプローチである変分ドメインに依存しない特徴リプレイを提案する。
論文 参考訳(メタデータ) (2020-03-09T19:50:24Z) - Machine Unlearning: Linear Filtration for Logit-based Classifiers [2.174931329479201]
最近制定された法律では、個人が自分の個人データがどんな風に使用されるかを決める権利を付与している。
これは、個人がデータの使用許可を取り除いた場合、どのように進むかという機械学習に挑戦する。
論文 参考訳(メタデータ) (2020-02-07T12:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。