論文の概要: Learning Transition Models with Time-delayed Causal Relations
- arxiv url: http://arxiv.org/abs/2008.01593v1
- Date: Tue, 4 Aug 2020 14:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 23:48:08.395059
- Title: Learning Transition Models with Time-delayed Causal Relations
- Title(参考訳): 時間遅れ因果関係を持つ学習遷移モデル
- Authors: Junchi Liang and Abdeslam Boularias
- Abstract要約: 提案アルゴリズムはまずマルコフの仮定による観測を予測した。
隠された変数は、関連する過去の出来事を追跡するメモリユニットである。
シミュレーションおよび実際のロボットタスクの実験は、この手法が現在の技術よりも大幅に改善されていることを示している。
- 参考スコア(独自算出の注目度): 17.494609199646813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces an algorithm for discovering implicit and delayed
causal relations between events observed by a robot at arbitrary times, with
the objective of improving data-efficiency and interpretability of model-based
reinforcement learning (RL) techniques. The proposed algorithm initially
predicts observations with the Markov assumption, and incrementally introduces
new hidden variables to explain and reduce the stochasticity of the
observations. The hidden variables are memory units that keep track of
pertinent past events. Such events are systematically identified by their
information gains. The learned transition and reward models are then used for
planning. Experiments on simulated and real robotic tasks show that this method
significantly improves over current RL techniques.
- Abstract(参考訳): 本稿では,モデルベース強化学習(rl)手法のデータ効率と解釈性の向上を目的として,ロボットが任意のタイミングで観測する事象の暗黙的因果関係と遅延因果関係を探索するアルゴリズムを提案する。
提案アルゴリズムはまずマルコフの仮定で観測を予測し、観測の確率性を説明・低減するために新しい隠れ変数を漸進的に導入する。
隠れた変数は、関連する過去のイベントを追跡するメモリユニットである。
このようなイベントは、情報ゲインによって体系的に識別される。
学習した移行モデルと報酬モデルが計画に使用される。
シミュレーションおよび実際のロボットタスクの実験は、この手法が現在のRL技術よりも大幅に改善されていることを示している。
関連論文リスト
- Demolition and Reinforcement of Memories in Spin-Glass-like Neural
Networks [0.0]
この論文の目的は、連想記憶モデルと生成モデルの両方において、アンラーニングの有効性を理解することである。
構造化データの選択により、連想記憶モデルは、相当量のアトラクションを持つニューラルダイナミクスのアトラクションとしての概念を検索することができる。
Boltzmann Machinesの新しい正規化手法が提案され、データセットから隠れ確率分布を学習する以前に開発された手法より優れていることが証明された。
論文 参考訳(メタデータ) (2024-03-04T23:12:42Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - How Does Data Freshness Affect Real-time Supervised Learning? [15.950108699395077]
実時間教師付き学習の性能は,特徴が陳腐化するにつれて単調に低下することを示す。
実時間における推論誤差を最小限に抑えるため,提案手法を新たに提案する。
提案したスケジューリングアルゴリズムの利点を説明するために,データ駆動型評価法を提案する。
論文 参考訳(メタデータ) (2022-08-15T00:14:13Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Invariant Causal Mechanisms through Distribution Matching [86.07327840293894]
本研究では、因果的視点と不変表現を学習するための新しいアルゴリズムを提供する。
実験により,このアルゴリズムは様々なタスク群でうまく動作し,特にドメインの一般化における最先端のパフォーマンスを観察する。
論文 参考訳(メタデータ) (2022-06-23T12:06:54Z) - Bayesian Active Learning for Discrete Latent Variable Models [19.852463786440122]
アクティブラーニングは、モデルのパラメータに適合するために必要なデータ量を削減しようとする。
潜在変数モデルは神経科学、心理学、その他の様々な工学、科学分野において重要な役割を果たす。
論文 参考訳(メタデータ) (2022-02-27T19:07:12Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z) - Combining data assimilation and machine learning to emulate a dynamical
model from sparse and noisy observations: a case study with the Lorenz 96
model [0.0]
この方法は、アンサンブルカルマンフィルタとニューラルネットワークを反復的にデータ同化ステップで適用することで構成される。
データ同化は、代理モデルとスパースデータとを最適に組み合わせるために用いられる。
出力分析は空間的に完全であり、サロゲートモデルを更新するためのニューラルネットワークによるトレーニングセットとして使用される。
カオス的な40変数Lorenz 96モデルを用いて数値実験を行い、提案手法の収束と統計的スキルの両立を証明した。
論文 参考訳(メタデータ) (2020-01-06T12:26:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。