論文の概要: Causally Correct Partial Models for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2002.02836v1
- Date: Fri, 7 Feb 2020 15:18:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 03:24:09.481246
- Title: Causally Correct Partial Models for Reinforcement Learning
- Title(参考訳): 強化学習のための因果正則部分モデル
- Authors: Danilo J. Rezende, Ivo Danihelka, George Papamakarios, Nan Rosemary
Ke, Ray Jiang, Theophane Weber, Karol Gregor, Hamza Merzic, Fabio Viola, Jane
Wang, Jovana Mitrovic, Frederic Besse, Ioannis Antonoglou, Lars Buesing
- Abstract要約: 強化学習では、将来の観察と報酬のモデルを学び、エージェントの次の行動を計画するためにそれを利用する。
以前の研究では、部分的なモデルが検討されており、観察の一部のみをモデル化している。
本稿では,部分的モデルが因果的誤りであり,従って不正確な計画に繋がることを示す。
- 参考スコア(独自算出の注目度): 28.02308585238295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, we can learn a model of future observations and
rewards, and use it to plan the agent's next actions. However, jointly modeling
future observations can be computationally expensive or even intractable if the
observations are high-dimensional (e.g. images). For this reason, previous
works have considered partial models, which model only part of the observation.
In this paper, we show that partial models can be causally incorrect: they are
confounded by the observations they don't model, and can therefore lead to
incorrect planning. To address this, we introduce a general family of partial
models that are provably causally correct, yet remain fast because they do not
need to fully model future observations.
- Abstract(参考訳): 強化学習では、将来の観察と報酬のモデルを学び、エージェントの次の行動を計画するためにそれを利用することができる。
しかし、将来の観測を共同でモデル化することは、もし観測が高次元(例えば画像)であれば計算的に高価あるいは難解である。
このため、それまでの研究では、観測の一部のみをモデル化する部分的なモデルが検討されてきた。
本稿では, 部分的モデルは, モデル化されていない観察結果によって構築され, 誤った計画に導かれる可能性があることを示す。
これを解決するために、我々は、確実に正当であるが、将来の観測を十分にモデル化する必要がなくなるため、高速な部分モデルの一般的なファミリーを導入する。
関連論文リスト
- Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Limitations of Agents Simulated by Predictive Models [1.6649383443094403]
エージェントとなると予測モデルが失敗する2つの構造的理由を概説する。
いずれの障害も環境からのフィードバックループを組み込むことで修正可能であることを示す。
我々の治療は、これらの障害モードの統一的なビューを提供し、オンライン学習でオフライン学習ポリシーを微調整することで、より効果的になる理由を疑問視する。
論文 参考訳(メタデータ) (2024-02-08T17:08:08Z) - Specify Robust Causal Representation from Mixed Observations [35.387451486213344]
観測から純粋に表現を学習することは、予測モデルに有利な低次元のコンパクトな表現を学習する問題を懸念する。
本研究では,観測データからこのような表現を学習するための学習手法を開発した。
理論的および実験的に、学習された因果表現で訓練されたモデルは、敵の攻撃や分布シフトの下でより堅牢であることを示す。
論文 参考訳(メタデータ) (2023-10-21T02:18:35Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。
小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:53:14Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Generalization and Memorization: The Bias Potential Model [9.975163460952045]
生成モデルと密度推定器は、関数の学習モデルとは全く異なる振る舞いをする。
バイアスポテンシャルモデルでは、早期停止が採用された場合、次元非依存の一般化精度が達成可能であることを示す。
長期的には、モデルはサンプルを記憶するか、分岐させる。
論文 参考訳(メタデータ) (2020-11-29T04:04:54Z) - In Pursuit of Interpretable, Fair and Accurate Machine Learning for
Criminal Recidivism Prediction [19.346391120556884]
本研究では、二項予測よりも確率を出力する解釈可能なモデルを訓練し、定量的フェアネス定義を用いてモデルを評価する。
フロリダ州とケンタッキー州の2つの異なる犯罪再犯データセット上で,ブラックボックスと解釈可能なMLモデルを生成した。
いくつかの解釈可能なMLモデルは、ブラックボックスMLモデルと同様に復調を予測でき、CompASやアーノルドPSAよりも正確である。
論文 参考訳(メタデータ) (2020-05-08T17:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。