論文の概要: Multi-scale Predictive Representations for Goal-conditioned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.09364v1
- Date: Sun, 10 May 2026 06:27:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.215553
- Title: Multi-scale Predictive Representations for Goal-conditioned Reinforcement Learning
- Title(参考訳): ゴール条件強化学習のためのマルチスケール予測表現
- Authors: Valliappan Chidambaram Adaikkappan, David Meger, Sai Rajeswar, Pietro Mazzaglia,
- Abstract要約: Ms.PRは、マルチスケールの予測監督を活用して、潜在空間内でゴール指向のアライメントを強制するフレームワークである。
我々は、Ms.PRが、視覚と状態に基づくタスクの両方において、表現品質の向上と強力なパフォーマンスをもたらすことを実証した。
- 参考スコア(独自算出の注目度): 16.445856792021726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates robust representation learning in offline goal-conditioned reinforcement learning (GCRL). Particularly in sparse reward scenarios, learning representations that align state and goal latents is a challenge that frequently culminates in representation divergence where the encoder drifts toward a low-dimensional, goal-agnostic subspace that destabilizes policy learning. We address this issue by showing that an agent must acquire a fundamental understanding of its environment across multiple scales, from local physical dynamics to long-horizon goal-directed structure. Building on this insight, we propose Ms.PR, a framework that leverages multi-scale predictive supervision to enforce goal-directed alignment within the latent space. We demonstrate that Ms.PR leads to improved representation quality and strong performance on both vision and state-based tasks. Furthermore, we show that our approach is exceptionally resilient under realistic, challenging data regimes, maintaining state-of-the-art performance across a wide variety of tasks, trajectory stitching scenarios, and extreme noise conditions.
- Abstract(参考訳): 本稿では,オフライン目標条件強化学習(GCRL)におけるロバスト表現学習について検討する。
特にスパース報酬のシナリオでは、状態と目標遅延を整列する学習表現は、エンコーダが政策学習を不安定にする低次元の目標に依存しない部分空間に向かって漂う表現分岐において、しばしば頂点となる課題である。
我々は,エージェントが局所的な物理力学から長期的目標指向構造に至るまで,複数のスケールにわたる環境の基本的な理解を得なければならないことを示すことにより,この問題に対処する。
この知見に基づいて、我々はマルチスケールの予測監督を活用して、潜在空間内でゴール指向のアライメントを強制するフレームワークであるMs.PRを提案する。
我々は、Ms.PRが、視覚と状態に基づくタスクの両方において、表現品質の向上と強力なパフォーマンスをもたらすことを実証した。
さらに,本手法は,現実的で挑戦的なデータ体制下では極めて弾力性があり,様々なタスク,軌道縫合シナリオ,極端な騒音条件において最先端の性能を維持していることを示す。
関連論文リスト
- PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations [66.94988600664574]
我々は,目標達成型強化学習を通じて事前学習を再構築するVLA基盤モデルであるtextbfPRTS(textbfPrimitive textbfReasoning and textbfTasking textbfSystem)を提案する。
論文 参考訳(メタデータ) (2026-04-30T06:14:02Z) - Regularized Latent Dynamics Prediction is a Strong Baseline For Behavioral Foundation Models [35.088440282359024]
行動基礎モデル(BFM)は、未知の報酬やタスクに適応する能力を持つエージェントを生成する。
これらの手法は、既存の状態特徴の範囲内にある報酬関数に対して、ほぼ最適にポリシーを作成できるのみである。
本稿では,ゼロショットRLに対して,最先端の複雑な表現学習手法に適合または超越可能なRLDP(Regularized Latent Dynamics Prediction)を提案する。
論文 参考訳(メタデータ) (2026-03-16T19:39:27Z) - A Behavioural and Representational Evaluation of Goal-Directedness in Language Model Agents [8.007212170802807]
本稿では,行動評価と解釈可能性に基づくモデルの内部表現の分析を統合した目標指向性評価フレームワークを提案する。
我々は,様々なグリッドサイズ,障害物密度,目標構造にまたがる最適政策に対するエージェントの評価を行った。
次に、エージェントの内部表現の環境状態とマルチステップアクション計画のデコードにプローブ法を用いる。
論文 参考訳(メタデータ) (2026-02-09T18:00:28Z) - Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention [92.85371254435074]
PosA-VLAフレームワークは、ポーズ条件付き監視を通じて視覚的注意を保ち、タスク関連領域に対するモデルの認識を一貫して導く。
本手法は,多様なロボット操作ベンチマークにおいて,正確かつ時間効率のよい動作を実施できることを示す。
論文 参考訳(メタデータ) (2025-12-03T12:14:29Z) - Patch-Level Kernel Alignment for Dense Self-Supervised Learning [7.5866326278176075]
Patch-level Kernel Alignment (PaKA) は、非パラメトリックなカーネルベースのアプローチで、事前学習した視覚エンコーダの高密度表現をポスト(pre)トレーニングで改善する。
本フレームワークは,事前学習モデル上に軽量な後学習段階を施すことにより,高密度表現を改善する。
1つのGPUで14時間追加のトレーニングを行うだけで、この手法は様々な高密度ビジョンベンチマークで最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-09-06T05:42:32Z) - Rich-Observation Reinforcement Learning with Continuous Latent Dynamics [43.84391209459658]
本稿では,高次元観測に基づく制御を行うRichCLD(Rich-Observation RL with Continuous Latent Dynamics)を提案する。
我々の主な貢献は、統計的かつ計算学的に効率的であるこの設定のための新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-29T17:02:49Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Efficient Hierarchical Exploration with Stable Subgoal Representation
Learning [26.537055962523162]
本研究では,よく探索された領域におけるサブゴール埋め込みを安定化する状態特異な正規化を提案する。
我々は、新しい有望なサブゴールや国家を積極的に追求する効率的な階層的な探索戦略を開発する。
論文 参考訳(メタデータ) (2021-05-31T07:28:59Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。