論文の概要: Reachability Weighted Offline Goal-conditioned Resampling
- arxiv url: http://arxiv.org/abs/2506.02577v1
- Date: Tue, 03 Jun 2025 07:55:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.418388
- Title: Reachability Weighted Offline Goal-conditioned Resampling
- Title(参考訳): オフラインゴール条件付きリサンプリングの信頼性向上
- Authors: Wenyan Yang, Joni Pajarinen,
- Abstract要約: オフライン目標条件強化学習(RL)は、多くの潜在的な目標が同じ状態と行動空間を共有する固定データセットに依存している。
一般化可能な目標条件付きポリシーを学習するには、Qラーニングのような動的プログラミング手法を用いてゴールと状態-アクションペアを一様にサンプリングすることが一般的である。
目標達成を可能にする遷移を優先するために、Reachability Weighted Smpling (RWS)を提案する。
- 参考スコア(独自算出の注目度): 15.098228846694088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline goal-conditioned reinforcement learning (RL) relies on fixed datasets where many potential goals share the same state and action spaces. However, these potential goals are not explicitly represented in the collected trajectories. To learn a generalizable goal-conditioned policy, it is common to sample goals and state-action pairs uniformly using dynamic programming methods such as Q-learning. Uniform sampling, however, requires an intractably large dataset to cover all possible combinations and creates many unreachable state-goal-action pairs that degrade policy performance. Our key insight is that sampling should favor transitions that enable goal achievement. To this end, we propose Reachability Weighted Sampling (RWS). RWS uses a reachability classifier trained via positive-unlabeled (PU) learning on goal-conditioned state-action values. The classifier maps these values to a reachability score, which is then used as a sampling priority. RWS is a plug-and-play module that integrates seamlessly with standard offline RL algorithms. Experiments on six complex simulated robotic manipulation tasks, including those with a robot arm and a dexterous hand, show that RWS significantly improves performance. In one notable case, performance on the HandBlock-Z task improved by nearly 50 percent relative to the baseline. These results indicate the effectiveness of reachability-weighted sampling.
- Abstract(参考訳): オフライン目標条件強化学習(RL)は、多くの潜在的な目標が同じ状態と行動空間を共有する固定データセットに依存している。
しかしながら、これらの潜在的なゴールは、収集された軌道に明示的に表されない。
一般化可能な目標条件付きポリシーを学習するには、Qラーニングのような動的プログラミング手法を用いてゴールと状態-アクションペアを一様にサンプリングすることが一般的である。
しかし、一様サンプリングは、可能なすべての組み合わせをカバーするために、難解なほど大きなデータセットを必要とし、ポリシー性能を低下させる、到達不能な状態-ゴール-アクションペアを多数生成する。
私たちの重要な洞察は、サンプリングはゴール達成を可能にする移行を好むべきだということです。
そこで我々はReachability Weighted Smpling (RWS)を提案する。
RWSは、目標条件付き状態-アクション値に関する正の未ラベル(PU)学習を通じて訓練された到達可能性分類器を使用する。
分類器はこれらの値をリーチビリティスコアにマッピングし、サンプリング優先度として使用される。
RWSは、標準のオフラインRLアルゴリズムとシームレスに統合されるプラグイン・アンド・プレイモジュールである。
ロボットアームと器用な手を含む6つの複雑なロボット操作に関する実験は、RWSが性能を著しく向上させることを示した。
注目すべきは、HandBlock-Zタスクのパフォーマンスがベースラインと比較して50%近く向上したことだ。
これらの結果から, 到達性重み付きサンプリングの有効性が示唆された。
関連論文リスト
- Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。