論文の概要: Action-Sufficient State Representation Learning for Control with
Structural Constraints
- arxiv url: http://arxiv.org/abs/2110.05721v1
- Date: Tue, 12 Oct 2021 03:16:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 13:14:48.563575
- Title: Action-Sufficient State Representation Learning for Control with
Structural Constraints
- Title(参考訳): 構造制約のある制御のための動作不足状態表現学習
- Authors: Biwei Huang, Chaochao Lu, Liu Leqi, Jos\'e Miguel Hern\'andez-Lobato,
Clark Glymour, Bernhard Sch\"olkopf, Kun Zhang
- Abstract要約: 本稿では,部分的に観測可能な環境に焦点をあて,意思決定に十分な情報を収集する,最小限の状態表現の集合を学習することを提案する。
システム内の変数間の構造的関係のための生成環境モデルを構築し、ASRを特徴付けるための原則的な方法を提案する。
CarRacing と VizDoom の実証実験の結果は,ASR を政策学習に活用する上で,明らかな優位性を示している。
- 参考スコア(独自算出の注目度): 21.47086290736692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perceived signals in real-world scenarios are usually high-dimensional and
noisy, and finding and using their representation that contains essential and
sufficient information required by downstream decision-making tasks will help
improve computational efficiency and generalization ability in the tasks. In
this paper, we focus on partially observable environments and propose to learn
a minimal set of state representations that capture sufficient information for
decision-making, termed \textit{Action-Sufficient state Representations}
(ASRs). We build a generative environment model for the structural
relationships among variables in the system and present a principled way to
characterize ASRs based on structural constraints and the goal of maximizing
cumulative reward in policy learning. We then develop a structured sequential
Variational Auto-Encoder to estimate the environment model and extract ASRs.
Our empirical results on CarRacing and VizDoom demonstrate a clear advantage of
learning and using ASRs for policy learning. Moreover, the estimated
environment model and ASRs allow learning behaviors from imagined outcomes in
the compact latent space to improve sample efficiency.
- Abstract(参考訳): 実世界のシナリオにおける知覚された信号は、通常、高次元で騒がしいものであり、下流の意思決定タスクに必要な必須情報と十分な情報を含むそれらの表現の発見と使用は、タスクの計算効率と一般化能力を改善するのに役立つ。
本稿では,部分的に観測可能な環境に焦点をあて,意思決定に十分な情報を収集する最小限の状態表現(ASR)を学習することを提案する。
我々は,システム内の変数間の構造的関係に関する生成環境モデルを構築し,構造的制約と,政策学習における累積報酬を最大化する目標に基づいて,asrを特徴付ける原則的手法を提案する。
次に,環境モデルを推定し,asrを抽出するための構造的逐次変分オートエンコーダを開発した。
CarRacing と VizDoom の実証実験の結果は,政策学習における ASR の学習と利用の明確な優位性を示している。
さらに, 推定環境モデルとasrにより, コンパクト潜在空間における想定された結果から学習行動が得られ, サンプル効率が向上する。
関連論文リスト
- Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Improving Reinforcement Learning Efficiency with Auxiliary Tasks in
Non-Visual Environments: A Comparison [0.0]
本研究は,低次元非視覚的観察のための唯一の疎結合表現学習法である,我々の知識を最大限に活用して,一般的な補助課題と比較する。
その結果, 十分複雑な環境下では, 補助的タスクによる表現学習は, 性能向上にのみ寄与することがわかった。
論文 参考訳(メタデータ) (2023-10-06T13:22:26Z) - Learning World Models with Identifiable Factorization [39.767120163665574]
我々は、遅延状態変数の4つの異なるカテゴリをモデル化するために、IFactorを提案する。
我々の分析は、これらの潜伏変数のブロックワイド識別性を確立する。
本稿では,ブロックを識別して世界モデルを学習するための実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-11T02:25:15Z) - Hierarchical State Abstraction Based on Structural Information
Principles [70.24495170921075]
本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。
SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-24T11:06:52Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Probing Statistical Representations For End-To-End ASR [28.833851817220616]
本稿では,SVCCAを用いたトランスフォーマーアーキテクチャにおけるドメイン間言語モデル依存性について検討する。
その結果, トランス層内の特定の神経表現は, 認識性能に影響を及ぼす相関挙動を示すことがわかった。
論文 参考訳(メタデータ) (2022-11-03T17:08:14Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。