論文の概要: Dual Goal Representations
- arxiv url: http://arxiv.org/abs/2510.06714v1
- Date: Wed, 08 Oct 2025 07:07:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.34462
- Title: Dual Goal Representations
- Title(参考訳): デュアルゴール表現
- Authors: Seohong Park, Deepinder Mann, Sergey Levine,
- Abstract要約: 目標条件強化学習(GCRL)のための二重目標表現を導入する。
双対ゴール表現は「他の全ての状態から時間距離の集合」によって状態を特徴づける
両目標表現は、20のステートおよびピクセルベースのタスクにおいて、オフラインのゴール取得性能を一貫して改善することを示す。
- 参考スコア(独自算出の注目度): 57.43956630070019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce dual goal representations for goal-conditioned reinforcement learning (GCRL). A dual goal representation characterizes a state by "the set of temporal distances from all other states"; in other words, it encodes a state through its relations to every other state, measured by temporal distance. This representation provides several appealing theoretical properties. First, it depends only on the intrinsic dynamics of the environment and is invariant to the original state representation. Second, it contains provably sufficient information to recover an optimal goal-reaching policy, while being able to filter out exogenous noise. Based on this concept, we develop a practical goal representation learning method that can be combined with any existing GCRL algorithm. Through diverse experiments on the OGBench task suite, we empirically show that dual goal representations consistently improve offline goal-reaching performance across 20 state- and pixel-based tasks.
- Abstract(参考訳): 本研究では,目標条件付き強化学習(GCRL)のための2つの目標表現を提案する。
双対ゴール表現は「他の全ての状態から時間的距離の集合」によって状態を特徴づけ、言い換えれば、時間的距離によって測定された他の全ての状態との関係を通して状態を符号化する。
この表現はいくつかの魅力的な理論的性質を提供する。
まず、環境の内在的ダイナミクスにのみ依存し、元の状態表現に不変である。
第二に、最適な目標達成ポリシーを回復するのに十分な情報を含んでおり、外因性ノイズを除去することができる。
この概念に基づいて,既存のGCRLアルゴリズムと組み合わせることができる実用的な目標表現学習法を開発した。
OGBenchタスクスイート上での多様な実験を通じて、デュアルゴール表現は、20のステートおよびピクセルベースのタスクにおいて、オフラインゴール取得性能を一貫して改善することを示した。
関連論文リスト
- Offline Goal-conditioned Reinforcement Learning with Quasimetric Representations [72.24831946301613]
目標条件強化学習(GCRL)へのアプローチは、しばしば学習状態表現を用いて目標達成ポリシーを抽出する。
本稿では,この2つのフレームワークを,準計量表現空間(三角不等式)の構造と適切な追加制約を用いて統合し,最適ゴール獲得を可能にする後続表現を学習する手法を提案する。
提案手法は,* 準距離パラメータ化を用いて,* 準距離* と * 準距離* を学習し,* 準距離* と *stochastic* の環境においても,* 準距離* を学習することができる。
論文 参考訳(メタデータ) (2025-09-24T18:45:32Z) - GoViG: Goal-Conditioned Visual Navigation Instruction Generation [69.79110149746506]
本稿では,Goal-Conditioned Visual Navigation Instruction Generation (GoViG)を紹介する。
GoViGは生のエゴセントリックな視覚データのみを活用し、目に見えない非構造環境への適応性を大幅に改善する。
論文 参考訳(メタデータ) (2025-08-13T07:05:17Z) - PcLast: Discovering Plannable Continuous Latent States [24.78767380808056]
我々は、効率的な計画と目標条件付き政策学習のために、到達可能な状態を関連付ける表現を学習する。
提案手法は各種シミュレーションテストベッドで厳密に検証されている。
論文 参考訳(メタデータ) (2023-11-06T21:16:37Z) - Neural Distillation as a State Representation Bottleneck in
Reinforcement Learning [4.129225533930966]
蒸留は, 良好な特性を示す状態表現の学習に有効であると主張する。
本稿では,これらの基準をまず評価し,標準逆振り子問題に基づく玩具環境における状態表現への蒸留の寄与を検証する。
論文 参考訳(メタデータ) (2022-10-05T13:00:39Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning [71.52722621691365]
リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
目的条件ビシミュレーションと呼ばれる新しい状態抽象化法を提案する。
この抽象概念の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
論文 参考訳(メタデータ) (2022-04-27T17:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。