論文の概要: Partial Counterfactual Identification for Infinite Horizon Partially
Observable Markov Decision Process
- arxiv url: http://arxiv.org/abs/2209.00137v1
- Date: Wed, 31 Aug 2022 22:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 14:01:17.664952
- Title: Partial Counterfactual Identification for Infinite Horizon Partially
Observable Markov Decision Process
- Title(参考訳): 無限水平部分観測可能なマルコフ決定過程の部分対物同定
- Authors: Aditya Kelvianto Sidharta
- Abstract要約: 本稿では,Q-ラーニングアルゴリズムを改良し,無限水平因果図を前提とした因果クエリの有意なバウンダリを提供することにより,従来の作業を拡張することを目的とする。
シミュレーションにより,我々のアルゴリズムは既存のアルゴリズムと比較して性能が良いことが証明された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper investigates the problem of bounding possible output from a
counterfactual query given a set of observational data. While various works of
literature have described methodologies to generate efficient algorithms that
provide an optimal bound for the counterfactual query, all of them assume a
finite-horizon causal diagram. This paper aims to extend the previous work by
modifying Q-learning algorithm to provide informative bounds of a causal query
given an infinite-horizon causal diagram. Through simulations, our algorithms
are proven to perform better compared to existing algorithm.
- Abstract(参考訳): 本稿では,観測データの集合が与えられた対実的なクエリから可能な出力をバウンダリングする問題について検討する。
様々な文献が反事実クエリに最適なバウンドを提供する効率的なアルゴリズムを生成する手法を記述しているが、それら全ては有限ホリゾン因果図を仮定している。
本稿では,Q-ラーニングアルゴリズムを改良し,無限水平因果図を前提とした因果クエリの有意なバウンダリを提供する。
シミュレーションにより,我々のアルゴリズムは既存のアルゴリズムと比較して性能が良いことが証明された。
関連論文リスト
- Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives [16.101435842520473]
本稿では,POMDPにおける最大到達可能性確率問題(indefinite-horizon)と呼ばれる問題について検討する。
割引問題に対するポイントベース手法の成功に触発され,MRPPへの拡張について検討した。
本稿では,これらの手法の強みを有効活用し,信念空間を効率的に探索するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T02:33:50Z) - Large Language Model-Enhanced Algorithm Selection: Towards Comprehensive Algorithm Representation [27.378185644892984]
本稿では,Large Language Models (LLM) をアルゴリズム選択に導入する。
LLMはアルゴリズムの構造的・意味的な側面を捉えるだけでなく、文脈的認識とライブラリ機能理解も示している。
選択されたアルゴリズムは、与えられた問題と異なるアルゴリズムの一致度によって決定される。
論文 参考訳(メタデータ) (2023-11-22T06:23:18Z) - Provably Efficient Learning in Partially Observable Contextual Bandit [4.910658441596583]
古典的帯域幅アルゴリズムの改善に因果境界をどのように適用できるかを示す。
本研究は,実世界の応用における文脈的包括的エージェントの性能を高める可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - Geometry-Aware Approaches for Balancing Performance and Theoretical
Guarantees in Linear Bandits [6.907555940790131]
トンプソンサンプリングとグリーディは有望な経験的性能を示したが、これは悲観的な理論的後悔の境界とは対照的である。
本研究では不確実楕円体の幾何学的特性を追跡する新しいデータ駆動手法を提案する。
ベースアルゴリズムが不十分な問題インスタンスを特定し,コース修正する。
論文 参考訳(メタデータ) (2023-06-26T17:38:45Z) - Encoding of data sets and algorithms [0.0]
多くの高インパクトアプリケーションにおいて、機械学習アルゴリズムの出力品質を保証することが重要である。
我々は、ある指標の観点から、どのモデルが互いに近いかを決定するために、数学的に厳密な理論を開始した。
このグリッドに作用する所定のしきい値メートル法は、それぞれのアルゴリズムと関心のデータセットから、任意のアプリケーションに近接性(または統計的距離)を表現します。
論文 参考訳(メタデータ) (2023-03-02T05:29:27Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Regret Analysis in Deterministic Reinforcement Learning [78.31410227443102]
本稿では,最適学習アルゴリズムの分析と設計の中心となる後悔の問題を考察する。
本稿では,システムパラメータに明示的に依存する対数問題固有の後悔の下位境界について述べる。
論文 参考訳(メタデータ) (2021-06-27T23:41:57Z) - Parallelizing Contextual Linear Bandits [82.65675585004448]
並列な)コンテキスト線形バンディットアルゴリズムの族を提示し、その遺残はそれらの完全シーケンシャルなアルゴリズムとほぼ同一である。
また,これらの並列アルゴリズムについて,材料発見や生物配列設計の問題など,いくつかの領域で実証評価を行った。
論文 参考訳(メタデータ) (2021-05-21T22:22:02Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Active Model Estimation in Markov Decision Processes [108.46146218973189]
マルコフ決定過程(MDP)をモデル化した環境の正確なモデル学習のための効率的な探索の課題について検討する。
マルコフに基づくアルゴリズムは,本アルゴリズムと極大エントロピーアルゴリズムの両方を小サンプル方式で上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-06T16:17:24Z) - Extreme Algorithm Selection With Dyadic Feature Representation [78.13985819417974]
我々は,数千の候補アルゴリズムの固定セットを考慮に入れた,極端なアルゴリズム選択(XAS)の設定を提案する。
我々は、XAS設定に対する最先端のAS技術の適用性を評価し、Dyadic特徴表現を利用したアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-29T09:40:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。