論文の概要: Conditional Energy-Based Models for Implicit Policies: The Gap between
Theory and Practice
- arxiv url: http://arxiv.org/abs/2207.05824v1
- Date: Tue, 12 Jul 2022 20:35:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 15:29:51.785541
- Title: Conditional Energy-Based Models for Implicit Policies: The Gap between
Theory and Practice
- Title(参考訳): インシシデント政策の条件付きエネルギーモデル:理論と実践のギャップ
- Authors: Duy-Nguyen Ta, Eric Cousineau, Huihua Zhao, Siyuan Feng
- Abstract要約: 本稿では,行動閉ざされた政策の暗黙的な表現として,条件付きエネルギーベースモデル(EBM)を用いた理論と実践のギャップについて述べる。
非条件ESMと条件付きEMMの主な違いを指摘し、一方を他方に盲目的に適用することは望ましくない結果をもたらす可能性があると警告した。
- 参考スコア(独自算出の注目度): 11.45641608124365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present our findings in the gap between theory and practice of using
conditional energy-based models (EBM) as an implicit representation for
behavior-cloned policies. We also clarify several subtle, and potentially
confusing, details in previous work in an attempt to help future research in
this area. We point out key differences between unconditional and conditional
EBMs, and warn that blindly applying training methods for one to the other
could lead to undesirable results that do not generalize well. Finally, we
emphasize the importance of the Maximum Mutual Information principle as a
necessary condition to achieve good generalization in conditional EBMs as
implicit models for regression tasks.
- Abstract(参考訳): 本稿では,条件付エネルギーベースモデル(ebm)を行動制限ポリシーの暗黙表現として用いる理論と実践のギャップについて考察する。
また,この領域における今後の研究を支援するために,先行研究における微妙な,潜在的に紛らわしい詳細を明らかにする。
非条件ESMと条件付きEMMの主な違いを指摘し、一方を他方に盲目的に適用すると、望ましくない結果をもたらす可能性があることを警告した。
最後に,条件付きebmを回帰タスクの暗黙モデルとして優れた一般化を達成するために必要な条件として,最大相互情報原理の重要性を強調した。
関連論文リスト
- On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。
本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。
また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-21T18:31:04Z) - Towards Context-Aware Domain Generalization: Understanding the Benefits
and Limits of Marginal Transfer Learning [1.5320861212113897]
我々は、コンテキストの概念をデータポイントの集合の置換不変表現として定式化する。
経験的分析により、我々の基準は好ましくないシナリオと好ましくないシナリオの両方を識別するのに有効であることが示された。
論文 参考訳(メタデータ) (2023-12-15T05:18:07Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Probabilistic modelling of rational communication with conditionals [0.0]
条件に関する実用的推論には確率論的アプローチを採用する。
本モデルは,文献で検証された推論を一様に説明できることを示す。
論文 参考訳(メタデータ) (2021-05-12T08:21:25Z) - Metrics and continuity in reinforcement learning [34.10996560464196]
メトリクスのレンズを通してトポロジを定義するために統一的な定式化を導入する。
我々はこれらの指標の階層を確立し、マルコフ決定過程にその理論的意味を実証する。
考察した指標間の差異を示す実証的な評価で理論結果を補完する。
論文 参考訳(メタデータ) (2021-02-02T14:30:41Z) - The Value Equivalence Principle for Model-Based Reinforcement Learning [29.368870568214007]
モデルベースRLエージェントの限られた表現資源は、価値ベースプランニングに直接有用なモデルを構築するのによく使われていると論じる。
検討されたポリシーと関数の集合を拡大するにつれて、値等価モデルのクラスが縮小することを示す。
価値等価性の原理は、RLにおける最近の経験的成功の根底にあると論じる。
論文 参考訳(メタデータ) (2020-11-06T18:25:54Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。