論文の概要: Reachability Weighted Offline Goal-conditioned Resampling
- arxiv url: http://arxiv.org/abs/2506.02577v1
- Date: Tue, 03 Jun 2025 07:55:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.418388
- Title: Reachability Weighted Offline Goal-conditioned Resampling
- Title(参考訳): オフラインゴール条件付きリサンプリングの信頼性向上
- Authors: Wenyan Yang, Joni Pajarinen,
- Abstract要約: オフライン目標条件強化学習(RL)は、多くの潜在的な目標が同じ状態と行動空間を共有する固定データセットに依存している。
一般化可能な目標条件付きポリシーを学習するには、Qラーニングのような動的プログラミング手法を用いてゴールと状態-アクションペアを一様にサンプリングすることが一般的である。
目標達成を可能にする遷移を優先するために、Reachability Weighted Smpling (RWS)を提案する。
- 参考スコア(独自算出の注目度): 15.098228846694088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline goal-conditioned reinforcement learning (RL) relies on fixed datasets where many potential goals share the same state and action spaces. However, these potential goals are not explicitly represented in the collected trajectories. To learn a generalizable goal-conditioned policy, it is common to sample goals and state-action pairs uniformly using dynamic programming methods such as Q-learning. Uniform sampling, however, requires an intractably large dataset to cover all possible combinations and creates many unreachable state-goal-action pairs that degrade policy performance. Our key insight is that sampling should favor transitions that enable goal achievement. To this end, we propose Reachability Weighted Sampling (RWS). RWS uses a reachability classifier trained via positive-unlabeled (PU) learning on goal-conditioned state-action values. The classifier maps these values to a reachability score, which is then used as a sampling priority. RWS is a plug-and-play module that integrates seamlessly with standard offline RL algorithms. Experiments on six complex simulated robotic manipulation tasks, including those with a robot arm and a dexterous hand, show that RWS significantly improves performance. In one notable case, performance on the HandBlock-Z task improved by nearly 50 percent relative to the baseline. These results indicate the effectiveness of reachability-weighted sampling.
- Abstract(参考訳): オフライン目標条件強化学習(RL)は、多くの潜在的な目標が同じ状態と行動空間を共有する固定データセットに依存している。
しかしながら、これらの潜在的なゴールは、収集された軌道に明示的に表されない。
一般化可能な目標条件付きポリシーを学習するには、Qラーニングのような動的プログラミング手法を用いてゴールと状態-アクションペアを一様にサンプリングすることが一般的である。
しかし、一様サンプリングは、可能なすべての組み合わせをカバーするために、難解なほど大きなデータセットを必要とし、ポリシー性能を低下させる、到達不能な状態-ゴール-アクションペアを多数生成する。
私たちの重要な洞察は、サンプリングはゴール達成を可能にする移行を好むべきだということです。
そこで我々はReachability Weighted Smpling (RWS)を提案する。
RWSは、目標条件付き状態-アクション値に関する正の未ラベル(PU)学習を通じて訓練された到達可能性分類器を使用する。
分類器はこれらの値をリーチビリティスコアにマッピングし、サンプリング優先度として使用される。
RWSは、標準のオフラインRLアルゴリズムとシームレスに統合されるプラグイン・アンド・プレイモジュールである。
ロボットアームと器用な手を含む6つの複雑なロボット操作に関する実験は、RWSが性能を著しく向上させることを示した。
注目すべきは、HandBlock-Zタスクのパフォーマンスがベースラインと比較して50%近く向上したことだ。
これらの結果から, 到達性重み付きサンプリングの有効性が示唆された。
関連論文リスト
- Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。
本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。
目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文 参考訳(メタデータ) (2025-07-24T21:11:39Z) - TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [6.711303205726428]
近年のVision-Language-Actionモデルの進歩は、大規模なデータセットで事前訓練された場合に、多様なシーン、タスク、ロボットプラットフォームにまたがる強力な一般化能力を示している。
これらのモデルは、静的な軌跡データセットを使用して、ほとんど監督された微調整(SFT)に依存する新しい環境において、タスク固有の微調整を必要とする。
本稿では,TGRPO(Trjectory-wise Group Relative Policy Optimization)法を提案する。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z) - Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。
本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。
我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文 参考訳(メタデータ) (2025-04-15T10:41:11Z) - PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Pareto Deterministic Policy Gradients and Its Application in 5G Massive
MIMO Networks [32.099949375036495]
我々は,強化学習(RL)アプローチを用いて,セルロードバランスとネットワークスループットを協調的に最適化することを検討する。
RLの背景にある理論的根拠は、ユーザモビリティとネットワークのダイナミクスを解析的にモデル化することの難しさを回避することである。
この共同最適化を実現するために、ベクトル報酬をRL値ネットワークに統合し、別々のポリシーネットワークを介してRLアクションを実行する。
論文 参考訳(メタデータ) (2020-12-02T15:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。