論文の概要: Equivariant Goal Conditioned Contrastive Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.16139v1
- Date: Tue, 22 Jul 2025 01:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.923291
- Title: Equivariant Goal Conditioned Contrastive Reinforcement Learning
- Title(参考訳): 等変ゴール条件付きコントラスト強化学習
- Authors: Arsh Tangri, Nichols Crawford Taylor, Haojie Huang, Robert Platt,
- Abstract要約: Contrastive Reinforcement Learning (CRL)は、ラベルのない相互作用から有用な構造化表現を抽出するための有望なフレームワークを提供する。
等変制約を用いた潜在空間をさらに構造化する等変CRLを提案する。
我々のアプローチは、状態ベースと画像ベースの両方の設定において、さまざまなシミュレーションタスクにおいて、強いベースラインを一貫して上回ります。
- 参考スコア(独自算出の注目度): 5.019456977535218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive Reinforcement Learning (CRL) provides a promising framework for extracting useful structured representations from unlabeled interactions. By pulling together state-action pairs and their corresponding future states, while pushing apart negative pairs, CRL enables learning nontrivial policies without manually designed rewards. In this work, we propose Equivariant CRL (ECRL), which further structures the latent space using equivariant constraints. By leveraging inherent symmetries in goal-conditioned manipulation tasks, our method improves both sample efficiency and spatial generalization. Specifically, we formally define Goal-Conditioned Group-Invariant MDPs to characterize rotation-symmetric robotic manipulation tasks, and build on this by introducing a novel rotation-invariant critic representation paired with a rotation-equivariant actor for Contrastive RL. Our approach consistently outperforms strong baselines across a range of simulated tasks in both state-based and image-based settings. Finally, we extend our method to the offline RL setting, demonstrating its effectiveness across multiple tasks.
- Abstract(参考訳): Contrastive Reinforcement Learning (CRL)は、ラベルのない相互作用から有用な構造化表現を抽出するための有望なフレームワークを提供する。
状態-作用ペアとそれに対応する将来の状態をまとめて、負のペアを分割することで、CRLは手動で設計された報酬なしに非自明なポリシーを学ぶことができる。
本研究では、等変制約を用いた潜在空間をさらに構造化する等変CRL(ECRL)を提案する。
目標条件付き操作タスクにおける固有対称性を活用することにより,サンプル効率と空間一般化の両面を改善する。
具体的には、回転対称なロボット操作タスクを特徴付けるために、Goal-Conditioned Group-Invariant MDPを正式に定義し、これに基づいて、RLの回転同変アクターと組み合わせた回転不変批判表現を導入する。
我々のアプローチは、状態ベースと画像ベースの両方の設定において、様々なシミュレートされたタスクの強いベースラインを一貫して上回ります。
最後に、本手法をオフラインのRL設定に拡張し、複数のタスクにまたがってその有効性を示す。
関連論文リスト
- COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z) - Equivariant Ensembles and Regularization for Reinforcement Learning in Map-based Path Planning [5.69473229553916]
本稿では,特定のニューラルネットワーク成分を使わずに,同変ポリシーと不変値関数を構築する手法を提案する。
等変アンサンブルと正則化がサンプル効率と性能にどのような影響を与えるかを示す。
論文 参考訳(メタデータ) (2024-03-19T16:01:25Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Cross-Trajectory Representation Learning for Zero-Shot Generalization in
RL [21.550201956884532]
高次元の観察空間上のいくつかのタスクで学んだポリシーを、トレーニング中に見えない同様のタスクに一般化する。
この課題に対する多くの有望なアプローチは、RLを2つの関数を同時に訓練するプロセスと見なしている。
本稿では,RLエージェント内で動作するクロストラジェクトリ表現学習(CTRL, Cross-Trajectory Representation Learning)を提案する。
論文 参考訳(メタデータ) (2021-06-04T00:43:10Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - Pareto Deterministic Policy Gradients and Its Application in 5G Massive
MIMO Networks [32.099949375036495]
我々は,強化学習(RL)アプローチを用いて,セルロードバランスとネットワークスループットを協調的に最適化することを検討する。
RLの背景にある理論的根拠は、ユーザモビリティとネットワークのダイナミクスを解析的にモデル化することの難しさを回避することである。
この共同最適化を実現するために、ベクトル報酬をRL値ネットワークに統合し、別々のポリシーネットワークを介してRLアクションを実行する。
論文 参考訳(メタデータ) (2020-12-02T15:35:35Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - Group Equivariant Deep Reinforcement Learning [4.997686360064921]
我々は、RLエージェントの訓練に同変CNNを用い、変換同変Q値近似のための誘導バイアスについて検討する。
我々は,RLエージェントの性能と試料効率を高対称な環境下で劇的に向上させることを実証した。
論文 参考訳(メタデータ) (2020-07-01T02:38:48Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。