論文の概要: Sequential Counterfactual Decision-Making Under Confounded Reward
- arxiv url: http://arxiv.org/abs/2206.02216v1
- Date: Sun, 5 Jun 2022 16:44:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 10:39:03.261902
- Title: Sequential Counterfactual Decision-Making Under Confounded Reward
- Title(参考訳): コンバウンド・リワード下におけるシークエンシャル意思決定
- Authors: Erik Skalnes
- Abstract要約: 本研究は、利害関係が効果と合わさった場合のランダムな試行の限界について検討する。
エージェントの自然な捕食がソフト・インターベンションに入力される対実的なポリシー空間を定式化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the limitations of random trials when the cause of interest is
confounded with the effect by formalizing a counterfactual policy-space where
the agent's natural predilection is input to a soft-intervention.
- Abstract(参考訳): 利害関係と効果が合わさった場合のランダム・トライアルの限界について,エージェントの自然な予兆がソフト・インターベンションに入力される反事実的ポリシー空間を定式化することにより検討する。
関連論文リスト
- Tell Me What You Don't Know: Enhancing Refusal Capabilities of Role-Playing Agents via Representation Space Analysis and Editing [54.098203568194606]
我々は,文脈知識の競合要求,パラメトリック知識の競合要求,非競合要求を含む評価ベンチマークを開発する。
ほとんどのRPAは、異なる競合要求に対して、大幅なパフォーマンスギャップを動作します。
本稿では、競合する要求を拒否領域に都合よくシフトさせる軽量な表現編集手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T13:18:12Z) - Causal Influence in Federated Edge Inference [34.487472866247586]
本稿では、未ラベルのストリーミングデータを用いて、接続性のある異種エージェントが推論を行う環境について考察する。
不確実性を克服するために、エージェントは、融合センターを通じてローカルな推論を交換することで互いに協力する。
エージェントの関与パターンや核融合センターの方針を反映した様々なシナリオを考察した。
論文 参考訳(メタデータ) (2024-05-02T13:06:50Z) - Predictive Performance Comparison of Decision Policies Under Confounding [32.21041697921289]
そこで本稿では, 意思決定ポリシーの予測性能を, 様々な現代的な識別手法で比較する手法を提案する。
我々の手法の鍵は、政策比較において安全に無視できる不確実性領域が存在するという洞察である。
論文 参考訳(メタデータ) (2024-04-01T01:27:07Z) - Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - When to intervene? Prescriptive Process Monitoring Under Uncertainty and
Resource Constraints [0.7487718119544158]
規範的なプロセス監視アプローチは、過去のデータを活用して実行時の介入を規定する。
この分野での以前の提案は、与えられたケースの現在の状態のみを考慮した介入ポリシーに依存している。
本稿では,予測スコア,予測の不確実性,介入の因果効果に基づいて進行中の事例をフィルタリング・ランク付けし,利得関数を最大化するために介入をトリガーする規範的プロセス監視手法を導入することにより,これらのギャップに対処する。
論文 参考訳(メタデータ) (2022-06-15T18:18:33Z) - Mitigation of Adversarial Policy Imitation via Constrained Randomization
of Policy (CRoP) [10.736626320566707]
本稿では、不正な複製攻撃に対する緩和手法として、制約付きポリシーのランダム化(CRoP)を提案する。
CRoPのパラメトリック解析を行い、CRoPの最適性に対処し、敵の予算と損失予測に理論的境界を確立する。
論文 参考訳(メタデータ) (2021-09-29T19:29:10Z) - Algorithmic Recourse in Partially and Fully Confounded Settings Through
Bounding Counterfactual Effects [0.6299766708197883]
アルゴリズムリコースは、自動意思決定システムからより好ましい結果を得るために、個人に実行可能なレコメンデーションを提供することを目的としている。
既存の手法では,データから学習した因果モデルを用いて,隠れたコンバウンディングや付加雑音などの仮定をモデル化する手法が提案されている。
本稿では、これらの仮定を緩和し、観測不能な共役および任意の構造方程式を可能にする離散確率変数に対する別のアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-22T15:07:49Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z) - Inverse Active Sensing: Modeling and Understanding Timely
Decision-Making [111.07204912245841]
我々は,内因性,文脈依存型時間圧下でのエビデンスに基づく意思決定の一般的な設定のための枠組みを開発する。
意思決定戦略において、サプライズ、サスペンス、最適性の直感的な概念をモデル化する方法を実証する。
論文 参考訳(メタデータ) (2020-06-25T02:30:45Z) - Options of Interest: Temporal Abstraction with Interest Functions [58.30081828754683]
一般関数近似に適した開始集合の一般化を、オプションに関連付けられた興味関数を定義することによって提供する。
我々は、関心関数に対する勾配に基づく学習アルゴリズムを導出し、新たな関心選択批判的アーキテクチャを創出する。
論文 参考訳(メタデータ) (2020-01-01T21:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。