Fugu-MT 論文翻訳(概要): Towards Learning Controllable Representations of Physical Systems

論文の概要: Towards Learning Controllable Representations of Physical Systems

arxiv url: http://arxiv.org/abs/2011.09906v2
Date: Tue, 24 Nov 2020 12:03:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-25 01:29:24.130523
Title: Towards Learning Controllable Representations of Physical Systems
Title（参考訳）: 物理システムの制御可能な表現の学習に向けて
Authors: Kevin Haninger, Raul Vicente Garcia, Joerg Krueger
Abstract要約: 力学系の学習表現は次元性を減少させ、下流強化学習(RL)を支援する可能性がある我々は、真の状態と対応する表現の関係を考察し、理想的には各表現が一意的な状態に対応することを提唱する。これらのメトリクスは、オートエンコーダに基づく表現の変種を比較する際に、擬似ペグ・イン・ホールタスクにおける強化学習性能を予測する。
参考スコア（独自算出の注目度）: 9.088303226909279
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learned representations of dynamical systems reduce dimensionality, potentially supporting downstream reinforcement learning (RL). However, no established methods predict a representation's suitability for control and evaluation is largely done via downstream RL performance, slowing representation design. Towards a principled evaluation of representations for control, we consider the relationship between the true state and the corresponding representations, proposing that ideally each representation corresponds to a unique true state. This motivates two metrics: temporal smoothness and high mutual information between true state/representation. These metrics are related to established representation objectives, and studied on Lagrangian systems where true state, information requirements, and statistical properties of the state can be formalized for a broad class of systems. These metrics are shown to predict reinforcement learning performance in a simulated peg-in-hole task when comparing variants of autoencoder-based representations.
Abstract（参考訳）: 力学系の学習表現は次元を減少させ、下流強化学習(rl)を潜在的に支援する。しかし、確立された手法では制御に適合する表現を予測できず、評価は主に下流のrl性能によって行われ、表現設計が遅くなる。制御のための表現の原理的評価に向けて、理想的には各表現が一意な真の状態に対応することを提案し、真の状態と対応する表現の関係を考える。これは、時間的滑らかさと真の状態/表現の間の高い相互情報という2つの指標を動機付けている。これらの指標は確立された表現目標と関連しており、真の状態、情報要件、および状態の統計特性が幅広い種類のシステムに対して形式化できるラグランジュ系について研究されている。これらのメトリクスは、オートエンコーダに基づく表現の変種を比較する際に、擬似ペグ・イン・ホールタスクにおける強化学習性能を予測する。

関連論文リスト

State Estimation and Control of Dynamic Systems from High-Dimensional Image Data [0.0]
本稿では、畳み込みニューラルネットワーク(CNN)を用いた空間的特徴抽出と、ゲートリカレントユニット(GRU)による時間的モデリングを統合した新しいニューラルアーキテクチャを提案する。実験により,提案手法により,地中構造に直接アクセスすることなく,リアルタイム,高精度な推定と制御が可能であることを実証した。
論文参考訳（メタデータ） (2025-05-30T17:40:06Z)
Towards a Unified Representation Evaluation Framework Beyond Downstream Tasks [9.390951257874187]
モデル表現における情報性、等分散、不変性、および要因の分散を定量化するための標準化されたプロトコルを導入する。類似のダウンストリーム性能を持つモデルからの表現は、これらの属性に関して、かなり異なる振る舞いをすることができる。
論文参考訳（メタデータ） (2025-05-09T17:58:52Z)
Measuring Orthogonality in Representations of Generative Models [81.13466637365553]
教師なしの表現学習において、モデルは高次元データから低次元の学習表現に不可欠な特徴を蒸留することを目的としている。独立した生成過程の切り離しは、長い間、高品質な表現を生み出してきた。我々は、IWO(Importance-Weighted Orthogonality)とIWR(Importance-Weighted Rank)の2つの新しい指標を提案する。
論文参考訳（メタデータ） (2024-07-04T08:21:54Z)
Learning telic-controllable state representations [3.4530027457862]
有界エージェントにおける状態表現学習のための計算フレームワークを提案する。本稿では, テリック状態表現の粒度と, 全てのテリック状態に到達するために必要な政策複雑性とのトレードオフを特徴付ける, テリック制御可能性の概念を紹介する。当社のフレームワークでは,目標の柔軟性と認知的複雑性のバランスをとる状態表現の学習において,意図的な無知(無視すべきことを知る)の役割を強調しています。
論文参考訳（メタデータ） (2024-06-20T16:38:25Z)
iQRL -- Implicitly Quantized Representations for Sample-efficient Reinforcement Learning [24.684363928059113]
自己教師付き潜在状態整合性損失のみを用いた効率的な表現学習法を提案する。我々は,潜在表現を定量化することにより,高い性能を実現し,表現崩壊を防止する。 iQRL:暗黙的に量子化強化学習(Quantized Reinforcement Learning)という手法は,任意のモデルフリーなRLアルゴリズムと互換性がある。
論文参考訳（メタデータ） (2024-06-04T18:15:44Z)
Learning Interpretable Policies in Hindsight-Observable POMDPs through Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。 PSRLの中心は、教師なし学習と教師なし学習の融合である。 PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文参考訳（メタデータ） (2024-02-14T16:23:23Z)
Neural Distillation as a State Representation Bottleneck in Reinforcement Learning [4.129225533930966]
蒸留は, 良好な特性を示す状態表現の学習に有効であると主張する。本稿では,これらの基準をまず評価し,標準逆振り子問題に基づく玩具環境における状態表現への蒸留の寄与を検証する。
論文参考訳（メタデータ） (2022-10-05T13:00:39Z)
Not All Instances Contribute Equally: Instance-adaptive Class Representation Learning for Few-Shot Visual Recognition [94.04041301504567]
少数ショットの視覚認識は、いくつかのラベル付きインスタンスから新しい視覚概念を認識することを指す。本稿では,数ショットの視覚認識を実現するために,インスタンス適応型クラス表現学習ネットワーク(ICRL-Net)と呼ばれる新しいメトリックベースのメタラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-09-07T10:00:18Z)
Value-Consistent Representation Learning for Data-Efficient Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文参考訳（メタデータ） (2022-06-25T03:02:25Z)
On the Generalization of Representations in Reinforcement Learning [32.303656009679045]
特定の状態表現から生じる一般化誤差に関する情報的境界を提供する。我々の境界は任意の状態表現に適用され、よく一般化する表現とよく近似する表現の間の自然な緊張を定量化する。
論文参考訳（メタデータ） (2022-03-01T15:22:09Z)
Desiderata for Representation Learning: A Causal Perspective [104.3711759578494]
我々は表現学習の因果的視点を採り、非純粋性と効率性(教師なし表現学習)と非教師なし表現学習(教師なし表現学習)を定式化する。これは、関心のデシダータを満たす程度を計算可能なメトリクスで評価し、単一の観測データセットから不純物や不整合表現を学習する。
論文参考訳（メタデータ） (2021-09-08T17:33:54Z)
Which Mutual-Information Representation Learning Objectives are Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文参考訳（メタデータ） (2021-06-14T10:12:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。