論文の概要: Sequential Counterfactual Decision-Making Under Confounded Reward
- arxiv url: http://arxiv.org/abs/2206.02216v1
- Date: Sun, 5 Jun 2022 16:44:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 10:39:03.261902
- Title: Sequential Counterfactual Decision-Making Under Confounded Reward
- Title(参考訳): コンバウンド・リワード下におけるシークエンシャル意思決定
- Authors: Erik Skalnes
- Abstract要約: 本研究は、利害関係が効果と合わさった場合のランダムな試行の限界について検討する。
エージェントの自然な捕食がソフト・インターベンションに入力される対実的なポリシー空間を定式化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the limitations of random trials when the cause of interest is
confounded with the effect by formalizing a counterfactual policy-space where
the agent's natural predilection is input to a soft-intervention.
- Abstract(参考訳): 利害関係と効果が合わさった場合のランダム・トライアルの限界について,エージェントの自然な予兆がソフト・インターベンションに入力される反事実的ポリシー空間を定式化することにより検討する。
関連論文リスト
- Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Effective Dimension in Bandit Problems under Censorship [22.269565708490468]
検閲環境におけるマルチアームとコンテキストのバンディットの問題について検討する。
我々の目標は、非検閲環境向けに設計された古典的アルゴリズムの文脈における検閲による性能損失を推定することである。
論文 参考訳(メタデータ) (2023-02-14T09:03:35Z) - Risk Aware Belief-dependent Constrained POMDP Planning [9.061408029414453]
リスク認識は、オンライン操作エージェントの基本である。
既存の制約付きPOMDPアルゴリズムは一般に離散状態と観測空間のために設計されている。
本稿では,リスク・逆信念に依存した制約付きPMDPの新たな定式化について述べる。
論文 参考訳(メタデータ) (2022-09-06T17:48:13Z) - When to intervene? Prescriptive Process Monitoring Under Uncertainty and
Resource Constraints [0.7487718119544158]
規範的なプロセス監視アプローチは、過去のデータを活用して実行時の介入を規定する。
この分野での以前の提案は、与えられたケースの現在の状態のみを考慮した介入ポリシーに依存している。
本稿では,予測スコア,予測の不確実性,介入の因果効果に基づいて進行中の事例をフィルタリング・ランク付けし,利得関数を最大化するために介入をトリガーする規範的プロセス監視手法を導入することにより,これらのギャップに対処する。
論文 参考訳(メタデータ) (2022-06-15T18:18:33Z) - Mitigation of Adversarial Policy Imitation via Constrained Randomization
of Policy (CRoP) [10.736626320566707]
本稿では、不正な複製攻撃に対する緩和手法として、制約付きポリシーのランダム化(CRoP)を提案する。
CRoPのパラメトリック解析を行い、CRoPの最適性に対処し、敵の予算と損失予測に理論的境界を確立する。
論文 参考訳(メタデータ) (2021-09-29T19:29:10Z) - Algorithmic Recourse in Partially and Fully Confounded Settings Through
Bounding Counterfactual Effects [0.6299766708197883]
アルゴリズムリコースは、自動意思決定システムからより好ましい結果を得るために、個人に実行可能なレコメンデーションを提供することを目的としている。
既存の手法では,データから学習した因果モデルを用いて,隠れたコンバウンディングや付加雑音などの仮定をモデル化する手法が提案されている。
本稿では、これらの仮定を緩和し、観測不能な共役および任意の構造方程式を可能にする離散確率変数に対する別のアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-22T15:07:49Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy
Gradients [93.65993173260318]
報酬を最大化するポリシーを訓練し、そのアクションを通じて特定の機密状態変数の開示を最小化するタスクを考える。
この設定は、シーケンシャルな意思決定のためのプライバシーにおける現実世界の問題をどのようにカバーするかを例に示します。
実験の結果,本手法は敏感な状態を隠蔽する方針が得られた。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Inverse Active Sensing: Modeling and Understanding Timely
Decision-Making [111.07204912245841]
我々は,内因性,文脈依存型時間圧下でのエビデンスに基づく意思決定の一般的な設定のための枠組みを開発する。
意思決定戦略において、サプライズ、サスペンス、最適性の直感的な概念をモデル化する方法を実証する。
論文 参考訳(メタデータ) (2020-06-25T02:30:45Z) - Options of Interest: Temporal Abstraction with Interest Functions [58.30081828754683]
一般関数近似に適した開始集合の一般化を、オプションに関連付けられた興味関数を定義することによって提供する。
我々は、関心関数に対する勾配に基づく学習アルゴリズムを導出し、新たな関心選択批判的アーキテクチャを創出する。
論文 参考訳(メタデータ) (2020-01-01T21:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。