Fugu-MT 論文翻訳(概要): Active hypothesis testing in unknown environments using recurrent neural networks and model free reinforcement learning

論文の概要: Active hypothesis testing in unknown environments using recurrent neural networks and model free reinforcement learning

arxiv url: http://arxiv.org/abs/2303.10623v1
Date: Sun, 19 Mar 2023 10:32:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-21 18:14:13.903037
Title: Active hypothesis testing in unknown environments using recurrent neural networks and model free reinforcement learning
Title（参考訳）: リカレントニューラルネットワークとモデル自由強化学習を用いた未知環境におけるアクティブ仮説テスト
Authors: George Stamatelis, Nicholas Kalouptsidis
Abstract要約: 我々は、事前の確率、行動と観測セット、および観測生成過程について仮定しない。本手法は,連続的な観察や行動であっても任意の環境で使用することができ,Chernoff試験よりも競合的に,時には優れた性能を発揮する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A combination of deep reinforcement learning and supervised learning is proposed for the problem of active sequential hypothesis testing in completely unknown environments. We make no assumptions about the prior probability, the action and observation sets, and the observation generating process. Our method can be used in any environment even if it has continuous observations or actions, and performs competitively and sometimes better than the Chernoff test, in both finite and infinite horizon problems, despite not having access to the environment dynamics.
Abstract（参考訳）: 完全未知環境における能動逐次仮説検証問題に対して,深層強化学習と教師付き学習の組み合わせを提案する。我々は、事前の確率、行動と観測セット、および観測生成過程について仮定しない。本手法は,連続的な観測や動作をともなう環境でも,有限地平線問題と無限地平線問題の両方において,チャーンオフテストよりも競争的かつ時として優れた性能を発揮する。

関連論文リスト

In-Context Learning for Pure Exploration in Continuous Spaces [26.001092687873125]
純粋探索とも呼ばれる能動的シーケンシャルテストでは、学習者は情報を適応的に取得する目的を負う。 C-ICPE-TSは、観測履歴を次の連続的なクエリアクションにマッピングするために、ディープニューラルネットワークポリシーをメタトレーニングするアルゴリズムである。推論時には、C-ICPE-TSは未確認タスクの証拠を積極的に収集し、パラメータ更新や明示的な手作り情報モデルなしで真の仮説を推測する。
論文参考訳（メタデータ） (2026-02-20T04:20:47Z)
Seeing Unseen: Discover Novel Biomedical Concepts via Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文参考訳（メタデータ） (2024-03-02T00:56:05Z)
Natural Mitigation of Catastrophic Interference: Continual Learning in Power-Law Learning Environments [2.714641498775159]
自然主義的な環境では、タスクに遭遇する確率は、それが最後に実行された時からその時代の権力者として減少することを示す。パワーロー環境でのトレーニングモデルにおけるCIの自然緩和の程度は、人間の顔と同様である。
論文参考訳（メタデータ） (2024-01-18T22:06:38Z)
Conditional Kernel Imitation Learning for Continuous State Environments [9.750698192309978]
条件付きカーネル密度推定に基づく新しい模倣学習フレームワークを提案する。我々は、多くの最先端ILアルゴリズムよりも一貫して優れた経験的性能を示す。
論文参考訳（メタデータ） (2023-08-24T05:26:42Z)
A Double Machine Learning Approach to Combining Experimental and Observational Data [59.29868677652324]
実験と観測を組み合わせた二重機械学習手法を提案する。我々の枠組みは、より軽度の仮定の下で、外部の妥当性と無知の違反を検査する。
論文参考訳（メタデータ） (2023-07-04T02:53:11Z)
Active Exploration via Experiment Design in Markov Chains [86.41407938210193]
科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。本稿では,最適値に収束したポリシを効率的に選択するアルゴリズムを提案する。理論分析に加えて,生態モニタリングと薬理学の応用に関する枠組みを概説する。
論文参考訳（メタデータ） (2022-06-29T00:04:40Z)
Disentangling Epistemic and Aleatoric Uncertainty in Reinforcement Learning [35.791555387656956]
絶対的不確実性は、本質的に危険な状態や行動につながる既約環境から生じる。認知的不確実性は、学習中に蓄積された限られた情報から得られる。訓練環境での学習のスピードアップ、同様のテスト環境への一般化の改善、異常なテスト環境での見慣れない振る舞いのフラグ付けには、アレタリックと不確実性を特徴づけることができる。
論文参考訳（メタデータ） (2022-06-03T13:20:16Z)
Continual Predictive Learning from Videos [100.27176974654559]
本稿では,ビデオ予測の文脈において,新たな連続学習問題について検討する。本稿では,連続予測学習(Continuousal predictive Learning, CPL)アプローチを提案する。我々はRoboNetとKTHに基づく2つの新しいベンチマークを構築し、異なるタスクが異なる物理ロボット環境や人間の行動に対応するようにした。
論文参考訳（メタデータ） (2022-04-12T08:32:26Z)
Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文参考訳（メタデータ） (2021-10-17T15:21:27Z)
Generalized Chernoff Sampling for Active Testing, Active Regression and Structured Bandit Algorithms [16.19565714525819]
本稿では,組織的バンディット設定におけるアクティブラーニングとベストアーム識別について検討する。チャーノフの元々のアクティブテスト手順に対する新しいサンプル境界複雑性を得る。
論文参考訳（メタデータ） (2020-12-15T03:44:18Z)
Attribute-Guided Adversarial Training for Robustness to Natural Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文参考訳（メタデータ） (2020-12-03T10:17:30Z)
A Wholistic View of Continual Learning with Deep Neural Networks: Forgotten Lessons and the Bridge to Active and Open World Learning [8.188575923130662]
オープンデータセット認識による顕著な教訓,観測データセット外の統計的逸脱したデータの識別,および近接するアクティブラーニングの分野は,深層学習時代においてしばしば見過ごされる。我々の結果は、これは個々のパラダイムに利益をもたらすだけでなく、共通のフレームワークにおける自然なシナジーを強調していることを示している。
論文参考訳（メタデータ） (2020-09-03T16:56:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。