論文の概要: Learning Transition Models with Time-delayed Causal Relations
- arxiv url: http://arxiv.org/abs/2008.01593v1
- Date: Tue, 4 Aug 2020 14:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 23:48:08.395059
- Title: Learning Transition Models with Time-delayed Causal Relations
- Title(参考訳): 時間遅れ因果関係を持つ学習遷移モデル
- Authors: Junchi Liang and Abdeslam Boularias
- Abstract要約: 提案アルゴリズムはまずマルコフの仮定による観測を予測した。
隠された変数は、関連する過去の出来事を追跡するメモリユニットである。
シミュレーションおよび実際のロボットタスクの実験は、この手法が現在の技術よりも大幅に改善されていることを示している。
- 参考スコア(独自算出の注目度): 17.494609199646813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces an algorithm for discovering implicit and delayed
causal relations between events observed by a robot at arbitrary times, with
the objective of improving data-efficiency and interpretability of model-based
reinforcement learning (RL) techniques. The proposed algorithm initially
predicts observations with the Markov assumption, and incrementally introduces
new hidden variables to explain and reduce the stochasticity of the
observations. The hidden variables are memory units that keep track of
pertinent past events. Such events are systematically identified by their
information gains. The learned transition and reward models are then used for
planning. Experiments on simulated and real robotic tasks show that this method
significantly improves over current RL techniques.
- Abstract(参考訳): 本稿では,モデルベース強化学習(rl)手法のデータ効率と解釈性の向上を目的として,ロボットが任意のタイミングで観測する事象の暗黙的因果関係と遅延因果関係を探索するアルゴリズムを提案する。
提案アルゴリズムはまずマルコフの仮定で観測を予測し、観測の確率性を説明・低減するために新しい隠れ変数を漸進的に導入する。
隠れた変数は、関連する過去のイベントを追跡するメモリユニットである。
このようなイベントは、情報ゲインによって体系的に識別される。
学習した移行モデルと報酬モデルが計画に使用される。
シミュレーションおよび実際のロボットタスクの実験は、この手法が現在のRL技術よりも大幅に改善されていることを示している。
関連論文リスト
- Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Dreaming Learning [41.94295877935867]
機械学習システムに新しい情報を導入することは、以前に格納されたデータに干渉する可能性がある。
スチュアート・カウフマンの随伴可能性の概念に着想を得た学習アルゴリズムを提案する。
ニューラルネットワークは、予想と異なる統計特性を持つデータシーケンスを円滑に受け入れ、統合することを前提としている。
論文 参考訳(メタデータ) (2024-10-23T09:17:31Z) - Estimating Causal Effects from Learned Causal Networks [56.14597641617531]
本稿では、離散可観測変数に対する因果影響クエリに応答する代替パラダイムを提案する。
観測データから直接因果ベイズネットワークとその共起潜伏変数を学習する。
本手法は, 推定手法よりも有効であることを示す。
論文 参考訳(メタデータ) (2024-08-26T08:39:09Z) - Demolition and Reinforcement of Memories in Spin-Glass-like Neural
Networks [0.0]
この論文の目的は、連想記憶モデルと生成モデルの両方において、アンラーニングの有効性を理解することである。
構造化データの選択により、連想記憶モデルは、相当量のアトラクションを持つニューラルダイナミクスのアトラクションとしての概念を検索することができる。
Boltzmann Machinesの新しい正規化手法が提案され、データセットから隠れ確率分布を学習する以前に開発された手法より優れていることが証明された。
論文 参考訳(メタデータ) (2024-03-04T23:12:42Z) - Information theory for data-driven model reduction in physics and biology [0.0]
我々は,関連変数を特定するために,情報ボトルネックに基づく体系的アプローチを開発する。
高圧縮の極限において、関連する変数は、最も遅い遅延固有関数によって直接決定されることを示す。
モデルリダクションを実行する解釈可能なディープラーニングツールを構築するための確固たる基盤を提供する。
論文 参考訳(メタデータ) (2023-12-11T18:39:05Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Bayesian Active Learning for Discrete Latent Variable Models [19.852463786440122]
アクティブラーニングは、モデルのパラメータに適合するために必要なデータ量を削減しようとする。
潜在変数モデルは神経科学、心理学、その他の様々な工学、科学分野において重要な役割を果たす。
論文 参考訳(メタデータ) (2022-02-27T19:07:12Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。