論文の概要: Learning World Models with Identifiable Factorization
- arxiv url: http://arxiv.org/abs/2306.06561v1
- Date: Sun, 11 Jun 2023 02:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 18:17:11.926225
- Title: Learning World Models with Identifiable Factorization
- Title(参考訳): 因子分析による世界モデル学習
- Authors: Yu-Ren Liu, Biwei Huang, Zhengmao Zhu, Honglong Tian, Mingming Gong,
Yang Yu, Kun Zhang
- Abstract要約: 我々は、遅延状態変数の4つの異なるカテゴリをモデル化するために、IFactorを提案する。
我々の分析は、これらの潜伏変数のブロックワイド識別性を確立する。
本稿では,ブロックを識別して世界モデルを学習するための実践的アプローチを提案する。
- 参考スコア(独自算出の注目度): 39.767120163665574
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Extracting a stable and compact representation of the environment is crucial
for efficient reinforcement learning in high-dimensional, noisy, and
non-stationary environments. Different categories of information coexist in
such environments -- how to effectively extract and disentangle these
information remains a challenging problem. In this paper, we propose IFactor, a
general framework to model four distinct categories of latent state variables
that capture various aspects of information within the RL system, based on
their interactions with actions and rewards. Our analysis establishes
block-wise identifiability of these latent variables, which not only provides a
stable and compact representation but also discloses that all reward-relevant
factors are significant for policy learning. We further present a practical
approach to learning the world model with identifiable blocks, ensuring the
removal of redundants but retaining minimal and sufficient information for
policy optimization. Experiments in synthetic worlds demonstrate that our
method accurately identifies the ground-truth latent variables, substantiating
our theoretical findings. Moreover, experiments in variants of the DeepMind
Control Suite and RoboDesk showcase the superior performance of our approach
over baselines.
- Abstract(参考訳): 安定かつコンパクトな環境表現の抽出は、高次元、雑音、非定常環境における効率的な強化学習に不可欠である。
このような環境で共存する情報の異なるカテゴリ -- 情報を効果的に抽出し、アンタングルする方法は、依然として困難な問題である。
本稿では,行動と報酬の相互作用に基づいて,RLシステム内の情報の様々な側面を捉える潜在状態変数の4つの異なるカテゴリをモデル化する汎用フレームワークであるIFactorを提案する。
本分析は,これらの潜在変数のブロックワイズ同定可能性を確立し,安定かつコンパクトな表現を提供するだけでなく,すべての報酬関連因子が政策学習に重要であることを明らかにする。
さらに,特定可能なブロックで世界モデルを学ぶための実践的なアプローチを提案し,冗長なブロックの除去を保証しつつ,政策最適化のための最小かつ十分な情報を保持する。
合成世界における実験により,本手法は地中潜伏変数を正確に同定し,理論的知見を裏付けるものである。
さらに、DeepMind Control SuiteとRoboDeskの亜種による実験では、ベースラインよりも優れたパフォーマンスを示している。
関連論文リスト
- Where Do We Stand with Implicit Neural Representations? A Technical and Performance Survey [16.89460694470542]
Inlicit Neural Representation (INR) は知識表現のパラダイムとして登場した。
INRは、データを連続的な暗黙の関数としてモデル化するために多層パーセプトロン(MLP)を利用する。
この調査では、アクティベーション機能、位置エンコーディング、統合戦略、ネットワーク構造という4つの重要な領域に分類する明確な分類法を紹介した。
論文 参考訳(メタデータ) (2024-11-06T06:14:24Z) - Exploring the Precise Dynamics of Single-Layer GAN Models: Leveraging Multi-Feature Discriminators for High-Dimensional Subspace Learning [0.0]
サブスペース学習の観点から,単層GANモデルのトレーニングダイナミクスについて検討する。
解析をサブスペース学習の領域にブリッジすることで,従来の手法と比較してGAN法の有効性を体系的に比較する。
論文 参考訳(メタデータ) (2024-11-01T10:21:12Z) - Evaluating the Stability of Deep Learning Latent Feature Spaces [0.0]
本研究では,潜在空間の安定性を評価し,その後の解析における一貫性と信頼性を確保するための新しいワークフローを提案する。
我々はこのワークフローを500のオートエンコーダ実現と3つのデータセットにまたがって実装し、合成シナリオと実世界のシナリオの両方を包含する。
本研究は,潜在特徴空間における固有の不安定性に注目し,これらの不安定性を定量化し解釈するワークフローの有効性を実証するものである。
論文 参考訳(メタデータ) (2024-02-17T23:41:15Z) - Epistemic Exploration for Generalizable Planning and Learning in Non-Stationary Settings [23.038187032666304]
本稿では,非定常環境における継続計画とモデル学習のための新しいアプローチを提案する。
提案したフレームワークは、エージェントの現在の知識状態のギャップをモデル化し、焦点を絞った調査を行うためにそれらを使用する。
いくつかの非定常ベンチマーク領域での実証的な評価は、このアプローチがサンプルの複雑さの観点からプランニングとRLベースラインを著しく上回っていることを示している。
論文 参考訳(メタデータ) (2024-02-13T00:50:06Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Learning Conditional Invariance through Cycle Consistency [60.85059977904014]
本稿では,データセットの変動の有意義な要因と独立な要因を識別する新しい手法を提案する。
提案手法は,対象プロパティと残りの入力情報に対する2つの別個の潜在部分空間を含む。
我々は,より意味のある因子を同定し,よりスペーサーや解釈可能なモデルに導く合成および分子データについて実証する。
論文 参考訳(メタデータ) (2021-11-25T17:33:12Z) - Action-Sufficient State Representation Learning for Control with
Structural Constraints [21.47086290736692]
本稿では,部分的に観測可能な環境に焦点をあて,意思決定に十分な情報を収集する,最小限の状態表現の集合を学習することを提案する。
システム内の変数間の構造的関係のための生成環境モデルを構築し、ASRを特徴付けるための原則的な方法を提案する。
CarRacing と VizDoom の実証実験の結果は,ASR を政策学習に活用する上で,明らかな優位性を示している。
論文 参考訳(メタデータ) (2021-10-12T03:16:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。