論文の概要: Variational Intrinsic Control Revisited
- arxiv url: http://arxiv.org/abs/2010.03281v2
- Date: Wed, 17 Mar 2021 14:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 22:27:28.093448
- Title: Variational Intrinsic Control Revisited
- Title(参考訳): 変分内在制御の再訪
- Authors: Taehwan Kwon
- Abstract要約: Gregorらによるオリジナルの研究で、2つのVICアルゴリズムが提案された: 1つは明示的にオプションを表すもので、もう1つは暗黙的にそれを行うものである。
後者で用いられる本質的な報酬は環境に偏りがあり、最適解に収束することを示した。
本稿では,この動作を補正し,最大エンパワーメントを達成するための2つの方法を提案する。
- 参考スコア(独自算出の注目度): 7.6146285961466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we revisit variational intrinsic control (VIC), an
unsupervised reinforcement learning method for finding the largest set of
intrinsic options available to an agent. In the original work by Gregor et al.
(2016), two VIC algorithms were proposed: one that represents the options
explicitly, and the other that does it implicitly. We show that the intrinsic
reward used in the latter is subject to bias in stochastic environments,
causing convergence to suboptimal solutions. To correct this behavior and
achieve the maximal empowerment, we propose two methods respectively based on
the transitional probability model and Gaussian mixture model. We substantiate
our claims through rigorous mathematical derivations and experimental analyses.
- Abstract(参考訳): 本稿では,エージェントが利用できる内在的選択肢の最大セットを見つけるための教師なし強化学習法である変分内在的制御(VIC)を再検討する。
Gregor et al. (2016) によるオリジナルの研究で、2つのVICアルゴリズムが提案された: 1つは明示的にオプションを表すもので、もう1つは暗黙的にそれを行うものである。
後者で得られる内在的な報酬は確率的環境においてバイアスの対象となり,準最適解への収束を引き起こすことを示した。
この挙動を補正し,最大エンパワーメントを達成するために,遷移確率モデルとガウス混合モデルに基づく2つの手法を提案する。
我々は厳密な数学的導出と実験的分析を通じて主張を実証する。
関連論文リスト
- Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z) - HJ-sampler: A Bayesian sampler for inverse problems of a stochastic process by leveraging Hamilton-Jacobi PDEs and score-based generative models [1.949927790632678]
本稿では,ブラウン運動文脈におけるコールホップ変換(Cole-Hopf transform)と呼ばれるログ変換に基づく。
本稿では,HJ-sampler という新しいアルゴリズムを開発し,与えられた終端観測による微分方程式の逆問題に対する推論を行う。
論文 参考訳(メタデータ) (2024-09-15T05:30:54Z) - Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both
Worlds in Stochastic and Deterministic Environments [48.96971760679639]
マルコフ決定過程(MDP)の分散依存的後悔境界について検討する。
環境の微細な分散特性を特徴付けるための2つの新しい環境規範を提案する。
モデルに基づく手法では、MVPアルゴリズムの変種を設計する。
特に、この境界は極小かつ決定論的 MDP に対して同時に最適である。
論文 参考訳(メタデータ) (2023-01-31T06:54:06Z) - Comparing two samples through stochastic dominance: a graphical approach [2.867517731896504]
実世界のシナリオでは非決定論的測定が一般的である。
推定累積分布関数に従って2つのサンプルを視覚的に比較するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T13:37:03Z) - Accelerating Stochastic Probabilistic Inference [1.599072005190786]
変分推論(SVI)は確率モデルの良好な後部近似を求める能力により、ますます魅力的になっている。
最先端のSVIアルゴリズムのほとんど全てが一階最適化に基づいており、しばしば収束率の低下に悩まされている。
我々は二階法と変分推論のギャップを二階法に基づく変分推論手法によって埋める。
論文 参考訳(メタデータ) (2022-03-15T01:19:12Z) - Loss function based second-order Jensen inequality and its application
to particle variational inference [112.58907653042317]
粒子変分推論(PVI)は、後部分布の実験的近似としてモデルのアンサンブルを用いる。
PVIは、最適化されたモデルの多様性を保証するために、各モデルを反発力で反復的に更新する。
我々は,新たな一般化誤差を導出し,モデルの多様性を高めて低減できることを示す。
論文 参考訳(メタデータ) (2021-06-09T12:13:51Z) - GroupifyVAE: from Group-based Definition to VAE-based Unsupervised
Representation Disentanglement [91.9003001845855]
他の誘導バイアスを導入しないと、VAEベースの非監視的非絡み合いは実現できない。
グループ理論に基づく定義から導かれる制約を非確率的帰納的バイアスとして活用し,vaeに基づく教師なし不連続に対処する。
提案手法の有効性を検証するために,5つのデータセット上で,vaeベースモデルが最も目立つ1800モデルをトレーニングした。
論文 参考訳(メタデータ) (2021-02-20T09:49:51Z) - Simple and optimal methods for stochastic variational inequalities, I:
operator extrapolation [9.359939442911127]
まず,決定論的変分不等式(VI)問題を解決するための演算子外挿法を提案する。
次に、演算子外挿法(SOE)を導入し、その最適収束挙動を異なる不等式 VI 問題を解くために確立する。
論文 参考訳(メタデータ) (2020-11-05T17:20:19Z) - The Risks of Invariant Risk Minimization [52.7137956951533]
不変リスク最小化(Invariant Risk Minimization)は、データの深い不変性を学ぶという考え方に基づく目標である。
我々は、IRMの目的に基づく分類の最初の分析と、最近提案されたこれらの代替案について、かなり自然で一般的なモデルで分析する。
IRMは、テストデータがトレーニング分布と十分に類似していない限り、破滅的に失敗する可能性がある。
論文 参考訳(メタデータ) (2020-10-12T14:54:32Z) - Robust, Accurate Stochastic Optimization for Variational Inference [68.83746081733464]
また, 共通最適化手法は, 問題が適度に大きい場合, 変分近似の精度が低下することを示した。
これらの結果から,基礎となるアルゴリズムをマルコフ連鎖の生成とみなして,より堅牢で正確な最適化フレームワークを開発する。
論文 参考訳(メタデータ) (2020-09-01T19:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。