論文の概要: Initial State Interventions for Deconfounded Imitation Learning
- arxiv url: http://arxiv.org/abs/2307.15980v2
- Date: Fri, 4 Aug 2023 12:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 15:23:09.894863
- Title: Initial State Interventions for Deconfounded Imitation Learning
- Title(参考訳): 模倣学習における初期状態介入
- Authors: Samuel Pfrommer, Yatong Bai, Hyunin Lee, Somayeh Sojoudi
- Abstract要約: 本研究では,観測空間の歪んだ表現において,観測された共同創設者をマスキングする問題を考察する。
我々の新しいマスキングアルゴリズムは、初期システム状態に介入する通常の能力を活用している。
特定の仮定の下では、このアルゴリズムは専門家に因果的に影響を及ぼす観測を誤って隠蔽しないという意味で保守的であることを理論的に証明する。
- 参考スコア(独自算出の注目度): 11.605936648692543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning suffers from causal confusion. This phenomenon occurs when
learned policies attend to features that do not causally influence the expert
actions but are instead spuriously correlated. Causally confused agents produce
low open-loop supervised loss but poor closed-loop performance upon deployment.
We consider the problem of masking observed confounders in a disentangled
representation of the observation space. Our novel masking algorithm leverages
the usual ability to intervene in the initial system state, avoiding any
requirement involving expert querying, expert reward functions, or causal graph
specification. Under certain assumptions, we theoretically prove that this
algorithm is conservative in the sense that it does not incorrectly mask
observations that causally influence the expert; furthermore, intervening on
the initial state serves to strictly reduce excess conservatism. The masking
algorithm is applied to behavior cloning for two illustrative control systems:
CartPole and Reacher.
- Abstract(参考訳): 模倣学習は因果的混乱に苦しむ。
この現象は、学習されたポリシーが専門家の行動に因果的に影響を与えず、代わりに急激な相関関係にある特徴に出席するときに起こる。
因果的に混乱したエージェントは、低いオープンループ制御損失を生じるが、デプロイ時にクローズループ性能は低下する。
我々は,観察空間の異方性表現において観察者共起者をマスキングする問題を考える。
提案するマスキングアルゴリズムは,初期システム状態における通常の介入機能を活用し,エキスパートクエリや専門家報酬関数,因果グラフ仕様といった要件を回避する。
特定の仮定の下では、このアルゴリズムは専門家に因果的に影響を及ぼす観察を誤って隠蔽しないという意味で保守的であることを理論的に証明する。
マスキングアルゴリズムは、cartopole と reacher の2つの図式制御系の動作クローニングに適用される。
関連論文リスト
- Rethinking State Disentanglement in Causal Reinforcement Learning [78.12976579620165]
因果性は、根底にある状態が識別可能性によって一意に回復できることを保証するための厳密な理論的支援を提供する。
我々はこの研究ラインを再考し、RL固有のコンテキストを取り入れることで、潜在状態に対する以前の識別可能性分析における不要な仮定を低減できることを示した。
本稿では, 従来手法の複雑な構造制約を, 遷移と報酬保存の2つの簡単な制約に置き換えることにより, 一般に部分的に観測可能なマルコフ決定過程(POMDP)を提案する。
論文 参考訳(メタデータ) (2024-08-24T06:49:13Z) - Guiding the generation of counterfactual explanations through temporal background knowledge for Predictive Process Monitoring [13.610101763172452]
我々は,XAIのドメインにおいて,実行時の一連の時間的制約を検討するために,対実生成のための最先端技術を適用した。
本稿では,時間的背景知識を取り入れることで,時間的背景知識に適合した反事実の生成が可能になることを示す。
論文 参考訳(メタデータ) (2024-03-18T10:34:40Z) - Neglected Hessian component explains mysteries in Sharpness
regularization [19.882170571967368]
損失のヘッセン構造によって差が説明できることを示す。
特徴の活用を規則化するが, 特徴探索を行わないと, 勾配のペナルティに類似した性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-01-19T16:52:53Z) - Offline Imitation Learning by Controlling the Effective Planning Horizon [5.844892266835562]
明示的な正則化を課すのではなく,効果的な計画的地平を制御できることについて検討する。
修正アルゴリズムは、明示的な正規化ではなく、効果的な計画地平線を制御することによって、一般的な模倣学習ベンチマークを改善することを示す。
論文 参考訳(メタデータ) (2024-01-18T05:17:30Z) - Efficient Reinforcement Learning with Impaired Observability: Learning
to Act with Delayed and Missing State Observations [92.25604137490168]
本稿では,制御系における効率的な強化学習に関する理論的研究を紹介する。
遅延および欠落した観測条件において,RL に対して $tildemathcalO(sqrtrm poly(H) SAK)$ という形でアルゴリズムを提示し,その上限と下限をほぼ最適に設定する。
論文 参考訳(メタデータ) (2023-06-02T02:46:39Z) - Causal Discovery from Subsampled Time Series with Proxy Variables [19.699813624529813]
本稿では,サブサンプリング時系列から因果構造全体を同定する制約に基づくアルゴリズムを提案する。
我々のアルゴリズムは非パラメトリックであり、完全な因果同定を実現することができる。
論文 参考訳(メタデータ) (2023-05-09T08:58:02Z) - Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Nested Counterfactual Identification from Arbitrary Surrogate
Experiments [95.48089725859298]
観測と実験の任意の組み合わせからネスト反事実の同定について検討した。
具体的には、任意のネストされた反事実を非ネストされたものへ写像できる反ファクト的非ネスト定理(英語版)(CUT)を証明する。
論文 参考訳(メタデータ) (2021-07-07T12:51:04Z) - Fighting Copycat Agents in Behavioral Cloning from Observation Histories [85.404120663644]
模倣学習は、入力観察から専門家が選択したアクションにマップするポリシーを訓練する。
本稿では,従来の専門家の行動ニュアンスに関する過剰な情報を除去する特徴表現を学習するための敵対的アプローチを提案する。
論文 参考訳(メタデータ) (2020-10-28T10:52:10Z) - Excursion Search for Constrained Bayesian Optimization under a Limited
Budget of Failures [62.41541049302712]
本稿では,所定の予算の失敗の関数として探索において許容されるリスクの量を制御する制御理論に基づく新しい意思決定者を提案する。
本アルゴリズムは, 種々の最適化実験において, 故障予算をより効率的に利用し, 一般に, 最先端の手法よりも, 後悔度を低くする。
論文 参考訳(メタデータ) (2020-05-15T09:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。