論文の概要: Does the Markov Decision Process Fit the Data: Testing for the Markov
Property in Sequential Decision Making
- arxiv url: http://arxiv.org/abs/2002.01751v1
- Date: Wed, 5 Feb 2020 12:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 21:02:04.379139
- Title: Does the Markov Decision Process Fit the Data: Testing for the Markov
Property in Sequential Decision Making
- Title(参考訳): マルコフ決定プロセスはデータに適合するか:逐次意思決定におけるマルコフ特性のテスト
- Authors: Chengchun Shi, Runzhe Wan, Rui Song, Wenbin Lu, Ling Leng
- Abstract要約: 提案試験は, 観測データの関節分布にパラメトリック形式を仮定しない。
人工データセットとモバイルヘルス研究の実際のデータ例に本テストを適用し,その有用性を示す。
- 参考スコア(独自算出の注目度): 23.899448293359598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Markov assumption (MA) is fundamental to the empirical validity of
reinforcement learning. In this paper, we propose a novel Forward-Backward
Learning procedure to test MA in sequential decision making. The proposed test
does not assume any parametric form on the joint distribution of the observed
data and plays an important role for identifying the optimal policy in
high-order Markov decision processes and partially observable MDPs. We apply
our test to both synthetic datasets and a real data example from mobile health
studies to illustrate its usefulness.
- Abstract(参考訳): マルコフ仮定(MA)は、強化学習の実証的妥当性の基礎である。
本稿では,MAを逐次意思決定でテストするための新しいフォワード・バックワード学習手法を提案する。
提案試験では, 観測データの連立分布にパラメトリック形式を仮定せず, 高次マルコフ決定過程や部分的に観測可能なMDPにおいて, 最適方針を特定する上で重要な役割を担っている。
人工データセットとモバイルヘルス研究の実際のデータ例に本テストを適用し,その有用性を示す。
関連論文リスト
- Positive and Unlabeled Data: Model, Estimation, Inference, and Classification [10.44075062541605]
本研究では、二重指数傾斜モデル(DETM)による正・ラベルなし(PU)データへの新たなアプローチを提案する。
従来の手法は、完全にランダム(SCAR)PUデータでのみ適用されるため、しばしば不足する。
我々のDEMの二重構造は、ランダムPUデータで選択されたより複雑で未探索な構造を効果的に許容する。
論文 参考訳(メタデータ) (2024-07-13T00:57:04Z) - Optimized Task Assignment and Predictive Maintenance for Industrial
Machines using Markov Decision Process [0.0]
本稿では,タスク割り当てと条件に基づく機械の健康維持のための分散意思決定手法について考察する。
マルコフ決定プロセスに基づく意思決定エージェントの設計を提案する。
論文 参考訳(メタデータ) (2024-01-20T12:12:14Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Learning non-Markovian Decision-Making from State-only Sequences [57.20193609153983]
非マルコフ決定過程(nMDP)を用いた状態のみ列のモデルに基づく模倣を開発する。
非マルコフ制約をもつ経路計画課題において提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-06-27T02:26:01Z) - Testing for the Markov Property in Time Series via Deep Conditional
Generative Learning [6.7826352751791985]
本研究では,高次元時系列におけるマルコフ特性の非パラメトリックテストを提案する。
テストは型Iを誤って制御し、出力が近づいていることを示します。
非パラメトリック推定を用いるが、パラメトリック収束率を達成する2つの頑健なテスト統計を導出する。
論文 参考訳(メタデータ) (2023-05-30T17:32:00Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Mitigating sampling bias in risk-based active learning via an EM
algorithm [0.0]
リスクベースのアクティブラーニングは、オンライン意思決定支援のための統計分類器を開発するためのアプローチである。
データラベルクエリは、初期データポイントに対する完全情報の期待値に応じてガイドされる。
半教師付きアプローチは、EMアルゴリズムを介して未ラベルデータの擬似ラベルを組み込むことでサンプリングバイアスに対処する。
論文 参考訳(メタデータ) (2022-06-25T08:48:25Z) - Markov Abstractions for PAC Reinforcement Learning in Non-Markov
Decision Processes [90.53326983143644]
マルコフの抽象概念は強化学習中に学習可能であることを示す。
提案手法は,採用アルゴリズムがPACを保証する場合にPACを保証する。
論文 参考訳(メタデータ) (2022-04-29T16:53:00Z) - Targeted Active Learning for Bayesian Decision-Making [15.491942513739676]
サンプルを逐次取得する際には,学習と意思決定を分離することが準最適である。
本稿では,ダウン・ザ・ライン決定問題を考慮に入れた,新たなアクティブな学習戦略を提案する。
具体的には、最適決定の後続分布における期待情報ゲインを最大化する、新しい能動的学習基準を導入する。
論文 参考訳(メタデータ) (2021-06-08T09:05:43Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。