論文の概要: Learning Discrete State Abstractions With Deep Variational Inference
- arxiv url: http://arxiv.org/abs/2003.04300v3
- Date: Mon, 11 Jan 2021 18:06:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 08:17:19.588603
- Title: Learning Discrete State Abstractions With Deep Variational Inference
- Title(参考訳): 深い変分推論による離散状態抽象化の学習
- Authors: Ondrej Biza, Robert Platt, Jan-Willem van de Meent and Lawson L. S.
Wong
- Abstract要約: 状態抽象化の一種である近似バイシミュレーションを学習する手法を提案する。
我々はディープ・ニューラルエンコーダを使って状態を連続的な埋め込みにマッピングする。
我々はこれらの埋め込みを、アクション条件付き隠れマルコフモデルを用いて離散表現にマッピングする。
- 参考スコア(独自算出の注目度): 7.273663549650618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstraction is crucial for effective sequential decision making in domains
with large state spaces. In this work, we propose an information bottleneck
method for learning approximate bisimulations, a type of state abstraction. We
use a deep neural encoder to map states onto continuous embeddings. We map
these embeddings onto a discrete representation using an action-conditioned
hidden Markov model, which is trained end-to-end with the neural network. Our
method is suited for environments with high-dimensional states and learns from
a stream of experience collected by an agent acting in a Markov decision
process. Through this learned discrete abstract model, we can efficiently plan
for unseen goals in a multi-goal Reinforcement Learning setting. We test our
method in simplified robotic manipulation domains with image states. We also
compare it against previous model-based approaches to finding bisimulations in
discrete grid-world-like environments. Source code is available at
https://github.com/ondrejba/discrete_abstractions.
- Abstract(参考訳): 抽象化は、大きな状態空間を持つドメインにおける効果的な逐次決定に不可欠である。
本研究では,状態抽象化の一種である近似バイシミュレーションを学習するための情報ボトルネック手法を提案する。
我々はディープ・ニューラルエンコーダを使って状態を連続的な埋め込みにマッピングする。
これらの埋め込みを、ニューラルネットワークでエンドツーエンドに訓練されたアクション条件付き隠れマルコフモデルを使用して、離散表現にマップする。
提案手法は高次元状態の環境に適しており,マルコフ決定プロセスで行動するエージェントが収集した経験の流れから学習する。
この学習された離散的抽象モデルにより,複数方向強化学習環境において,未知の目標を効率的に計画することができる。
画像状態の簡易ロボット操作領域で本手法をテストした。
また,従来のモデルベースアプローチと比較し,離散的グリッド・ワールド的環境におけるバイシミュレーションを探索する。
ソースコードはhttps://github.com/ondrejba/discrete_abstractionsで入手できる。
関連論文リスト
- Legged Robot State Estimation With Invariant Extended Kalman Filter
Using Neural Measurement Network [2.0405494347486197]
我々は、ニューラルネットワーク(NMN)と不変拡張カルマンフィルタを統合する状態推定フレームワークを開発した。
提案手法は,既存のモデルベース状態推定器と比較して位置ドリフトを著しく低減する。
論文 参考訳(メタデータ) (2024-02-01T06:06:59Z) - Ideal Abstractions for Decision-Focused Learning [108.15241246054515]
本稿では,決定関連情報の損失を最小限に抑えるために,出力空間を自動的に構成する手法を提案する。
本手法は,ディープニューラルネットワークトレーニングのためのデータ取得と,閉ループ山火事管理タスクの2つの領域で実証する。
論文 参考訳(メタデータ) (2023-03-29T23:31:32Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Discrete State-Action Abstraction via the Successor Representation [3.453310639983932]
抽象化(Abstraction)は、エージェントに潜伏空間の遷移に固有の報酬を与えるアプローチである。
私たちのアプローチは、基盤となる環境の離散的な抽象化を自動的に学習する最初のものです。
提案アルゴリズムであるDSAA(Disdisrete State-Action Abstraction)は,これらのオプションのトレーニングと,それを用いて環境のより効率的な探索を行う。
論文 参考訳(メタデータ) (2022-06-07T17:37:30Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - State Representation Learning for Goal-Conditioned Reinforcement
Learning [9.162936410696407]
本稿では,報酬のないマルコフ決定過程に対する新しい状態表現を提案する。
自己監督的な方法で、組込み状態のペア間の埋め込み空間は、それらの間の遷移に必要な最小のアクション数に対応する。
我々は、この表現がどのようにしてゴール条件付きポリシーを学ぶことができるかを示す。
論文 参考訳(メタデータ) (2022-05-04T09:20:09Z) - Multi-Branch Deep Radial Basis Function Networks for Facial Emotion
Recognition [80.35852245488043]
放射状基底関数(RBF)ユニットによって形成された複数の分岐で拡張されたCNNベースのアーキテクチャを提案する。
RBFユニットは、中間表現を用いて類似のインスタンスで共有される局所パターンをキャプチャする。
提案手法は,提案手法の競争力を高めるためのローカル情報の導入であることを示す。
論文 参考訳(メタデータ) (2021-09-07T21:05:56Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。