論文の概要: Learning Transition Models with Time-delayed Causal Relations
- arxiv url: http://arxiv.org/abs/2008.01593v1
- Date: Tue, 4 Aug 2020 14:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 23:48:08.395059
- Title: Learning Transition Models with Time-delayed Causal Relations
- Title(参考訳): 時間遅れ因果関係を持つ学習遷移モデル
- Authors: Junchi Liang and Abdeslam Boularias
- Abstract要約: 提案アルゴリズムはまずマルコフの仮定による観測を予測した。
隠された変数は、関連する過去の出来事を追跡するメモリユニットである。
シミュレーションおよび実際のロボットタスクの実験は、この手法が現在の技術よりも大幅に改善されていることを示している。
- 参考スコア(独自算出の注目度): 17.494609199646813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces an algorithm for discovering implicit and delayed
causal relations between events observed by a robot at arbitrary times, with
the objective of improving data-efficiency and interpretability of model-based
reinforcement learning (RL) techniques. The proposed algorithm initially
predicts observations with the Markov assumption, and incrementally introduces
new hidden variables to explain and reduce the stochasticity of the
observations. The hidden variables are memory units that keep track of
pertinent past events. Such events are systematically identified by their
information gains. The learned transition and reward models are then used for
planning. Experiments on simulated and real robotic tasks show that this method
significantly improves over current RL techniques.
- Abstract(参考訳): 本稿では,モデルベース強化学習(rl)手法のデータ効率と解釈性の向上を目的として,ロボットが任意のタイミングで観測する事象の暗黙的因果関係と遅延因果関係を探索するアルゴリズムを提案する。
提案アルゴリズムはまずマルコフの仮定で観測を予測し、観測の確率性を説明・低減するために新しい隠れ変数を漸進的に導入する。
隠れた変数は、関連する過去のイベントを追跡するメモリユニットである。
このようなイベントは、情報ゲインによって体系的に識別される。
学習した移行モデルと報酬モデルが計画に使用される。
シミュレーションおよび実際のロボットタスクの実験は、この手法が現在のRL技術よりも大幅に改善されていることを示している。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Dreaming Learning [41.94295877935867]
機械学習システムに新しい情報を導入することは、以前に格納されたデータに干渉する可能性がある。
スチュアート・カウフマンの随伴可能性の概念に着想を得た学習アルゴリズムを提案する。
ニューラルネットワークは、予想と異なる統計特性を持つデータシーケンスを円滑に受け入れ、統合することを前提としている。
論文 参考訳(メタデータ) (2024-10-23T09:17:31Z) - Estimating Causal Effects from Learned Causal Networks [56.14597641617531]
本稿では、離散可観測変数に対する因果影響クエリに応答する代替パラダイムを提案する。
観測データから直接因果ベイズネットワークとその共起潜伏変数を学習する。
本手法は, 推定手法よりも有効であることを示す。
論文 参考訳(メタデータ) (2024-08-26T08:39:09Z) - Efficient and Generalizable Certified Unlearning: A Hessian-free Recollection Approach [8.875278412741695]
機械学習は、特定のデータを選択的に忘れることを可能にして、データ所有者の権利を忘れないように努力する。
我々は,ベクトル加算操作のみを必要とするため,ほぼ瞬時に未学習を実現するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-04-02T07:54:18Z) - Demolition and Reinforcement of Memories in Spin-Glass-like Neural
Networks [0.0]
この論文の目的は、連想記憶モデルと生成モデルの両方において、アンラーニングの有効性を理解することである。
構造化データの選択により、連想記憶モデルは、相当量のアトラクションを持つニューラルダイナミクスのアトラクションとしての概念を検索することができる。
Boltzmann Machinesの新しい正規化手法が提案され、データセットから隠れ確率分布を学習する以前に開発された手法より優れていることが証明された。
論文 参考訳(メタデータ) (2024-03-04T23:12:42Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Bayesian Active Learning for Discrete Latent Variable Models [19.852463786440122]
アクティブラーニングは、モデルのパラメータに適合するために必要なデータ量を削減しようとする。
潜在変数モデルは神経科学、心理学、その他の様々な工学、科学分野において重要な役割を果たす。
論文 参考訳(メタデータ) (2022-02-27T19:07:12Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。