Fugu-MT 論文翻訳(概要): PcLast: Discovering Plannable Continuous Latent States

論文の概要: PcLast: Discovering Plannable Continuous Latent States

arxiv url: http://arxiv.org/abs/2311.03534v2
Date: Tue, 11 Jun 2024 03:32:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-13 00:58:30.814835
Title: PcLast: Discovering Plannable Continuous Latent States
Title（参考訳）: PcLast: 計画可能な継続的遅延状態を発見する
Authors: Anurag Koul, Shivakanth Sujit, Shaoru Chen, Ben Evans, Lili Wu, Byron Xu, Rajan Chari, Riashat Islam, Raihan Seraj, Yonathan Efroni, Lekan Molu, Miro Dudik, John Langford, Alex Lamb,
Abstract要約: 我々は、効率的な計画と目標条件付き政策学習のために、到達可能な状態を関連付ける表現を学習する。提案手法は各種シミュレーションテストベッドで厳密に検証されている。
参考スコア（独自算出の注目度）: 24.78767380808056
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Goal-conditioned planning benefits from learned low-dimensional representations of rich observations. While compact latent representations typically learned from variational autoencoders or inverse dynamics enable goal-conditioned decision making, they ignore state reachability, hampering their performance. In this paper, we learn a representation that associates reachable states together for effective planning and goal-conditioned policy learning. We first learn a latent representation with multi-step inverse dynamics (to remove distracting information), and then transform this representation to associate reachable states together in $\ell_2$ space. Our proposals are rigorously tested in various simulation testbeds. Numerical results in reward-based settings show significant improvements in sampling efficiency. Further, in reward-free settings this approach yields layered state abstractions that enable computationally efficient hierarchical planning for reaching ad hoc goals with zero additional samples.
Abstract（参考訳）: 目標条件付プランニングは、豊富な観測の学習された低次元表現から恩恵を受ける。可変オートエンコーダや逆ダイナミクスから学習されるコンパクトな潜在表現は、ゴール条件付き意思決定を可能にするが、状態到達性を無視し、パフォーマンスを阻害する。本稿では,有効な計画立案と目標条件付き政策学習のために,到達可能な状態を関連付ける表現を学習する。まず、多段階の逆ダイナミクスを持つ潜在表現を学習し、次にこの表現を$\ell_2$空間で到達可能な状態に関連付けるように変換する。提案手法は各種シミュレーションテストベッドで厳密に検証されている。報酬に基づく設定の数値計算の結果、サンプリング効率が大幅に向上した。さらに、報酬のない設定では、このアプローチは計算効率のよい階層的計画を可能にする階層化された状態抽象化が得られ、追加のサンプルはゼロとなる。

関連論文リスト

Learning Policy Representations for Steerable Behavior Synthesis [80.4542176039074]
マルコフ決定プロセス(MDP)を前提として,テスト時の行動ステアリングを促進するために,さまざまなポリシーの表現を学習する。これらの表現は、セットベースアーキテクチャを用いて、様々なポリシーに対して均一に近似できることを示す。変動生成法を用いてスムーズな潜伏空間を導出し,さらにコントラスト学習により、潜伏距離が値関数の差と一致するように形成する。
論文参考訳（メタデータ） (2026-01-29T21:52:06Z)
When Object-Centric World Models Meet Policy Learning: From Pixels to Policies, and Where It Breaks [24.669692812050645]
我々は、ピクセルから直接オブジェクトレベルのラテントを学習する、完全に教師なし、不整合なオブジェクト中心の世界モデルを導入する。 DLPWMは、複数のアウト・オブ・ディストリビューション(OOD)視覚変化に対する堅牢性を含む、強い再構成と予測性能を達成する。その結果,物体中心の知覚は頑健な視覚モデルを支援するが,安定した制御を実現するには潜伏ドリフトを緩和する必要があることが示唆された。
論文参考訳（メタデータ） (2025-11-08T21:09:44Z)
Dual Goal Representations [57.43956630070019]
目標条件強化学習(GCRL)のための二重目標表現を導入する。双対ゴール表現は「他の全ての状態から時間距離の集合」によって状態を特徴づける両目標表現は、20のステートおよびピクセルベースのタスクにおいて、オフラインのゴール取得性能を一貫して改善することを示す。
論文参考訳（メタデータ） (2025-10-08T07:07:39Z)
Improving Large Language Model Planning with Action Sequence Similarity [50.52049888490524]
本研究では,インコンテキスト学習(ICL)によるモデル計画能力の向上について検討する。 GRASE-DC は2段階のパイプラインで,まず高効率のAS例を再サンプリングし,選択した例をキュレートする。実験の結果,GRASE-DCは様々な計画タスクにおいて大幅な性能向上を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-02T05:16:17Z)
Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文参考訳（メタデータ） (2025-04-23T17:53:34Z)
ACT-JEPA: Novel Joint-Embedding Predictive Architecture for Efficient Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文参考訳（メタデータ） (2025-01-24T16:41:41Z)
Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。 BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文参考訳（メタデータ） (2024-08-30T15:39:34Z)
Imagination Policy: Using Generative Point Cloud Models for Learning Manipulation Policies [25.760946763103483]
Imagination Policy(Imagination Policy)は,高精度ピック・アンド・プレイス・タスクを解くための新しいマルチタスク・キー・フレーム・ポリシー・ネットワークである。アクションを直接学習する代わりに、Imagination Policy は所望の状態を想像するために点雲を生成し、それが厳密なアクション推定を用いてアクションに変換される。
論文参考訳（メタデータ） (2024-06-17T17:00:41Z)
Hierarchical State Abstraction Based on Structural Information Principles [70.24495170921075]
本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。 SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
論文参考訳（メタデータ） (2023-04-24T11:06:52Z)
PALMER: Perception-Action Loop with Memory for Long-Horizon Planning [1.5469452301122177]
PALMERと呼ばれる汎用計画アルゴリズムを導入する。 Palmerは古典的なサンプリングベースの計画アルゴリズムと学習に基づく知覚表現を組み合わせる。これにより、表現学習、記憶、強化学習、サンプリングベースの計画の間に、緊密なフィードバックループが生成される。
論文参考訳（メタデータ） (2022-12-08T22:11:49Z)
Value-Consistent Representation Learning for Data-Efficient Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文参考訳（メタデータ） (2022-06-25T03:02:25Z)
Low-Dimensional State and Action Representation Learning with MDP Homomorphism Metrics [1.5293427903448022]
深層強化学習(Deep Reinforcement Learning)は、高次元観察から直接複雑な問題を解く能力を示している。エンドツーエンドの設定では、強化学習アルゴリズムはサンプリング効率が良くなく、長いトレーニング時間と大量のデータを必要とする。状態と行動表現を利用して高次元問題を低次元に変換するサンプル効率強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-07-04T16:26:04Z)
Provable Representation Learning for Imitation with Contrastive Fourier Features [27.74988221252854]
オフライン体験データセットを用いて低次元の状態表現を学習する。主要な課題は、未知のターゲットポリシー自体が低次元の振る舞いを示さないことである。我々は、目標ポリシーと最大様態で訓練された低次元ポリシーとの性能差を上限とする表現学習目標を導出する。
論文参考訳（メタデータ） (2021-05-26T00:31:30Z)
Modular Deep Reinforcement Learning for Continuous Motion Planning with Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。 LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文参考訳（メタデータ） (2021-02-24T01:11:25Z)
SPU-Net: Self-Supervised Point Cloud Upsampling by Coarse-to-Fine Reconstruction with Self-Projection Optimization [52.20602782690776]
実際のスキャンされたスパースデータからトレーニング用の大規模なペアリングスパーススキャンポイントセットを得るのは高価で面倒です。本研究では,SPU-Net と呼ばれる自己監視型点群アップサンプリングネットワークを提案する。本研究では,合成データと実データの両方について様々な実験を行い,最先端の教師付き手法と同等の性能が得られることを示す。
論文参考訳（メタデータ） (2020-12-08T14:14:09Z)
Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文参考訳（メタデータ） (2020-10-10T14:03:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。