論文の概要: Towards Learning Controllable Representations of Physical Systems
- arxiv url: http://arxiv.org/abs/2011.09906v2
- Date: Tue, 24 Nov 2020 12:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 01:29:24.130523
- Title: Towards Learning Controllable Representations of Physical Systems
- Title(参考訳): 物理システムの制御可能な表現の学習に向けて
- Authors: Kevin Haninger, Raul Vicente Garcia, Joerg Krueger
- Abstract要約: 力学系の学習表現は次元性を減少させ、下流強化学習(RL)を支援する可能性がある
我々は、真の状態と対応する表現の関係を考察し、理想的には各表現が一意的な状態に対応することを提唱する。
これらのメトリクスは、オートエンコーダに基づく表現の変種を比較する際に、擬似ペグ・イン・ホールタスクにおける強化学習性能を予測する。
- 参考スコア(独自算出の注目度): 9.088303226909279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned representations of dynamical systems reduce dimensionality,
potentially supporting downstream reinforcement learning (RL). However, no
established methods predict a representation's suitability for control and
evaluation is largely done via downstream RL performance, slowing
representation design. Towards a principled evaluation of representations for
control, we consider the relationship between the true state and the
corresponding representations, proposing that ideally each representation
corresponds to a unique true state. This motivates two metrics: temporal
smoothness and high mutual information between true state/representation. These
metrics are related to established representation objectives, and studied on
Lagrangian systems where true state, information requirements, and statistical
properties of the state can be formalized for a broad class of systems. These
metrics are shown to predict reinforcement learning performance in a simulated
peg-in-hole task when comparing variants of autoencoder-based representations.
- Abstract(参考訳): 力学系の学習表現は次元を減少させ、下流強化学習(rl)を潜在的に支援する。
しかし、確立された手法では制御に適合する表現を予測できず、評価は主に下流のrl性能によって行われ、表現設計が遅くなる。
制御のための表現の原理的評価に向けて、理想的には各表現が一意な真の状態に対応することを提案し、真の状態と対応する表現の関係を考える。
これは、時間的滑らかさと真の状態/表現の間の高い相互情報という2つの指標を動機付けている。
これらの指標は確立された表現目標と関連しており、真の状態、情報要件、および状態の統計特性が幅広い種類のシステムに対して形式化できるラグランジュ系について研究されている。
これらのメトリクスは、オートエンコーダに基づく表現の変種を比較する際に、擬似ペグ・イン・ホールタスクにおける強化学習性能を予測する。
関連論文リスト
- Measuring Orthogonality in Representations of Generative Models [81.13466637365553]
教師なしの表現学習において、モデルは高次元データから低次元の学習表現に不可欠な特徴を蒸留することを目的としている。
独立した生成過程の切り離しは、長い間、高品質な表現を生み出してきた。
我々は、IWO(Importance-Weighted Orthogonality)とIWR(Importance-Weighted Rank)の2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2024-07-04T08:21:54Z) - iQRL -- Implicitly Quantized Representations for Sample-efficient Reinforcement Learning [24.684363928059113]
自己教師付き潜在状態整合性損失のみを用いた効率的な表現学習法を提案する。
我々は,潜在表現を定量化することにより,高い性能を実現し,表現崩壊を防止する。
iQRL:暗黙的に量子化強化学習(Quantized Reinforcement Learning)という手法は,任意のモデルフリーなRLアルゴリズムと互換性がある。
論文 参考訳(メタデータ) (2024-06-04T18:15:44Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - Neural Distillation as a State Representation Bottleneck in
Reinforcement Learning [4.129225533930966]
蒸留は, 良好な特性を示す状態表現の学習に有効であると主張する。
本稿では,これらの基準をまず評価し,標準逆振り子問題に基づく玩具環境における状態表現への蒸留の寄与を検証する。
論文 参考訳(メタデータ) (2022-10-05T13:00:39Z) - Not All Instances Contribute Equally: Instance-adaptive Class
Representation Learning for Few-Shot Visual Recognition [94.04041301504567]
少数ショットの視覚認識は、いくつかのラベル付きインスタンスから新しい視覚概念を認識することを指す。
本稿では,数ショットの視覚認識を実現するために,インスタンス適応型クラス表現学習ネットワーク(ICRL-Net)と呼ばれる新しいメトリックベースのメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-07T10:00:18Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - On the Generalization of Representations in Reinforcement Learning [32.303656009679045]
特定の状態表現から生じる一般化誤差に関する情報的境界を提供する。
我々の境界は任意の状態表現に適用され、よく一般化する表現とよく近似する表現の間の自然な緊張を定量化する。
論文 参考訳(メタデータ) (2022-03-01T15:22:09Z) - Desiderata for Representation Learning: A Causal Perspective [104.3711759578494]
我々は表現学習の因果的視点を採り、非純粋性と効率性(教師なし表現学習)と非教師なし表現学習(教師なし表現学習)を定式化する。
これは、関心のデシダータを満たす程度を計算可能なメトリクスで評価し、単一の観測データセットから不純物や不整合表現を学習する。
論文 参考訳(メタデータ) (2021-09-08T17:33:54Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。