論文の概要: Active hypothesis testing in unknown environments using recurrent neural
networks and model free reinforcement learning
- arxiv url: http://arxiv.org/abs/2303.10623v1
- Date: Sun, 19 Mar 2023 10:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 18:14:13.903037
- Title: Active hypothesis testing in unknown environments using recurrent neural
networks and model free reinforcement learning
- Title(参考訳): リカレントニューラルネットワークとモデル自由強化学習を用いた未知環境におけるアクティブ仮説テスト
- Authors: George Stamatelis, Nicholas Kalouptsidis
- Abstract要約: 我々は、事前の確率、行動と観測セット、および観測生成過程について仮定しない。
本手法は,連続的な観察や行動であっても任意の環境で使用することができ,Chernoff試験よりも競合的に,時には優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A combination of deep reinforcement learning and supervised learning is
proposed for the problem of active sequential hypothesis testing in completely
unknown environments. We make no assumptions about the prior probability, the
action and observation sets, and the observation generating process. Our method
can be used in any environment even if it has continuous observations or
actions, and performs competitively and sometimes better than the Chernoff
test, in both finite and infinite horizon problems, despite not having access
to the environment dynamics.
- Abstract(参考訳): 完全未知環境における能動逐次仮説検証問題に対して,深層強化学習と教師付き学習の組み合わせを提案する。
我々は、事前の確率、行動と観測セット、および観測生成過程について仮定しない。
本手法は,連続的な観測や動作をともなう環境でも,有限地平線問題と無限地平線問題の両方において,チャーンオフテストよりも競争的かつ時として優れた性能を発揮する。
関連論文リスト
- Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Conditional Kernel Imitation Learning for Continuous State Environments [9.750698192309978]
条件付きカーネル密度推定に基づく新しい模倣学習フレームワークを提案する。
我々は、多くの最先端ILアルゴリズムよりも一貫して優れた経験的性能を示す。
論文 参考訳(メタデータ) (2023-08-24T05:26:42Z) - A Double Machine Learning Approach to Combining Experimental and
Observational Data [73.06835953800436]
実験と観測を組み合わせた二重機械学習手法を提案する。
我々の枠組みは、より軽度の仮定の下で、外部の妥当性と無知の違反を検査する。
論文 参考訳(メタデータ) (2023-07-04T02:53:11Z) - Decoding Neural Activity to Assess Individual Latent State in
Ecologically Valid Contexts [1.1059590443280727]
2つの高度に制御された実験室のパラダイムからのデータを用いて、2つの異なるドメイン一般化モデルを訓練する。
我々は、下層の潜伏状態と関連する神経活動パターンを推定する。
論文 参考訳(メタデータ) (2023-04-18T15:15:00Z) - Disentangling Epistemic and Aleatoric Uncertainty in Reinforcement
Learning [35.791555387656956]
絶対的不確実性は、本質的に危険な状態や行動につながる既約環境から生じる。
認知的不確実性は、学習中に蓄積された限られた情報から得られる。
訓練環境での学習のスピードアップ、同様のテスト環境への一般化の改善、異常なテスト環境での見慣れない振る舞いのフラグ付けには、アレタリックと不確実性を特徴づけることができる。
論文 参考訳(メタデータ) (2022-06-03T13:20:16Z) - Continual Predictive Learning from Videos [100.27176974654559]
本稿では,ビデオ予測の文脈において,新たな連続学習問題について検討する。
本稿では,連続予測学習(Continuousal predictive Learning, CPL)アプローチを提案する。
我々はRoboNetとKTHに基づく2つの新しいベンチマークを構築し、異なるタスクが異なる物理ロボット環境や人間の行動に対応するようにした。
論文 参考訳(メタデータ) (2022-04-12T08:32:26Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Generalized Chernoff Sampling for Active Testing, Active Regression and
Structured Bandit Algorithms [16.19565714525819]
本稿では,組織的バンディット設定におけるアクティブラーニングとベストアーム識別について検討する。
チャーノフの元々のアクティブテスト手順に対する新しいサンプル境界複雑性を得る。
論文 参考訳(メタデータ) (2020-12-15T03:44:18Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Variational Dynamic for Self-Supervised Exploration in Deep
Reinforcement Learning [64.87110914918101]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - A Wholistic View of Continual Learning with Deep Neural Networks:
Forgotten Lessons and the Bridge to Active and Open World Learning [8.188575923130662]
オープンデータセット認識による顕著な教訓,観測データセット外の統計的逸脱したデータの識別,および近接するアクティブラーニングの分野は,深層学習時代においてしばしば見過ごされる。
我々の結果は、これは個々のパラダイムに利益をもたらすだけでなく、共通のフレームワークにおける自然なシナジーを強調していることを示している。
論文 参考訳(メタデータ) (2020-09-03T16:56:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。