論文の概要: Structure learning with Temporal Gaussian Mixture for model-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.11511v1
- Date: Mon, 18 Nov 2024 12:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:36:18.311766
- Title: Structure learning with Temporal Gaussian Mixture for model-based Reinforcement Learning
- Title(参考訳): モデルに基づく強化学習のための時相ガウス混合による構造学習
- Authors: Théophile Champion, Marek Grześ, Howard Bowman,
- Abstract要約: 本稿では,知覚モデルと遷移モデルからなる時間的ガウス混合モデルを提案する。
知覚モデルは、変分ガウス混合確率を用いて連続観測から離散状態(ラテン)を抽出する。
遷移モデルはディリクレカテゴリーの共役性を利用して連続する時間ステップ間の時間遷移を学習する。
最後に、状態に対する信念からQ値を学ぶことができるQ-ラーニングの変種を用いて意思決定を行う。
- 参考スコア(独自算出の注目度): 0.9217021281095907
- License:
- Abstract: Model-based reinforcement learning refers to a set of approaches capable of sample-efficient decision making, which create an explicit model of the environment. This model can subsequently be used for learning optimal policies. In this paper, we propose a temporal Gaussian Mixture Model composed of a perception model and a transition model. The perception model extracts discrete (latent) states from continuous observations using a variational Gaussian mixture likelihood. Importantly, our model constantly monitors the collected data searching for new Gaussian components, i.e., the perception model performs a form of structure learning (Smith et al., 2020; Friston et al., 2018; Neacsu et al., 2022) as it learns the number of Gaussian components in the mixture. Additionally, the transition model learns the temporal transition between consecutive time steps by taking advantage of the Dirichlet-categorical conjugacy. Both the perception and transition models are able to forget part of the data points, while integrating the information they provide within the prior, which ensure fast variational inference. Finally, decision making is performed with a variant of Q-learning which is able to learn Q-values from beliefs over states. Empirically, we have demonstrated the model's ability to learn the structure of several mazes: the model discovered the number of states and the transition probabilities between these states. Moreover, using its learned Q-values, the agent was able to successfully navigate from the starting position to the maze's exit.
- Abstract(参考訳): モデルに基づく強化学習は、サンプル効率のよい意思決定が可能な一連のアプローチを指し、環境の明示的なモデルを作成する。
このモデルはその後、最適なポリシーを学ぶために使用することができる。
本稿では,知覚モデルと遷移モデルからなる時間的ガウス混合モデルを提案する。
知覚モデルは、変分ガウス混合確率を用いて連続観測から離散状態(ラテン)を抽出する。
我々のモデルは、新しいガウス成分を探索する収集データ(Smith et al , 2020; Friston et al , 2018; Neacsu et al , 2022)を常に監視する。
さらに、遷移モデルはディリクレカテゴリーの共役性を利用して連続する時間ステップ間の時間遷移を学習する。
知覚モデルと遷移モデルの両方がデータポイントの一部を忘れることができ、提供した情報を前もって統合することで、高速な変動推論が保証される。
最後に、状態に対する信念からQ値を学ぶことができるQ-ラーニングの変種を用いて意思決定を行う。
経験的に、我々はモデルがいくつかの迷路の構造を学習する能力を示した:モデルが状態の数とそれらの状態間の遷移確率を発見した。
さらに、学習したQ値を用いて、エージェントはスタート位置から迷路の出口への移動に成功した。
関連論文リスト
- Bayesian Learning of Coupled Biogeochemical-Physical Models [28.269731698116257]
海洋生態系の予測モデルは、様々なニーズに使われている。
希少な測定と海洋プロセスの理解が限られているため、かなりの不確実性がある。
候補モデルの空間での処理と新しいモデルの発見を可能にするベイズモデル学習手法を開発した。
論文 参考訳(メタデータ) (2022-11-12T17:49:18Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - Bayesian Active Learning for Discrete Latent Variable Models [19.852463786440122]
アクティブラーニングは、モデルのパラメータに適合するために必要なデータ量を削減しようとする。
潜在変数モデルは神経科学、心理学、その他の様々な工学、科学分野において重要な役割を果たす。
論文 参考訳(メタデータ) (2022-02-27T19:07:12Z) - Merging Models with Fisher-Weighted Averaging [24.698591753644077]
我々は、複数のモデルを1つに“マージ”するモデル間で知識を伝達する、根本的に異なる方法を紹介します。
提案手法は,モデルのパラメータの重み付け平均を効果的に計算する。
マージ手順により、これまで探索されていなかった方法でモデルを組み合わせることが可能であることを示す。
論文 参考訳(メタデータ) (2021-11-18T17:59:35Z) - Lifelong Infinite Mixture Model Based on Knowledge-Driven Dirichlet
Process [15.350366047108103]
生涯学習における最近の研究成果は、タスクの増加に対応するために、モデルの混合を成長させることが提案されている。
本研究では,データの確率的表現間の差分距離に基づいてリスク境界を導出することにより,生涯学習モデルの理論的解析を行う。
理論解析に着想を得て, 生涯無限混合モデル (LIMix) と呼ばれる新しい生涯学習手法を導入する。
論文 参考訳(メタデータ) (2021-08-25T21:06:20Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Gaussian Function On Response Surface Estimation [12.35564140065216]
メタモデリング手法によるブラックボックス機械学習モデルの解釈(機能とサンプル)のための新しいフレームワークを提案する。
メタモデルは、興味のある領域のデータサンプルでコンピュータ実験を実行することによって、訓練された複雑なモデルによって生成されたデータから推定することができる。
論文 参考訳(メタデータ) (2021-01-04T04:47:00Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Deducing neighborhoods of classes from a fitted model [68.8204255655161]
本稿では,新しいタイプの解釈可能な機械学習手法を提案する。
量子シフトを用いた分類モデルでは、特徴空間の予測クラスへの分割を理解するのに役立ちます。
基本的に、実際のデータポイント(または特定の関心点)を使用し、特定の特徴をわずかに引き上げたり減少させたりした後の予測の変化を観察する。
論文 参考訳(メタデータ) (2020-09-11T16:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。