論文の概要: SVL: Goal-Conditioned Reinforcement Learning as Survival Learning
- arxiv url: http://arxiv.org/abs/2604.17551v1
- Date: Sun, 19 Apr 2026 17:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.57939
- Title: SVL: Goal-Conditioned Reinforcement Learning as Survival Learning
- Title(参考訳): SVL:生き残り学習としてのゴールコンディション強化学習
- Authors: Franki Nguimatsia Tiofack, Fabian Schramm, Théotime Le Hellard, Justin Carpentier,
- Abstract要約: 時間差学習に依存する目標条件強化学習(GCRL)への標準的アプローチは、ブートストラップにより不安定でサンプル非効率である。
本稿では,各状態から目標までの時間を確率分布としてモデル化することにより,GCRLを生存学習問題として再構成する,生存値学習(SVL)という確率論的手法を提案する。
オフラインのGCRLベンチマークの実験では、SVLと階層的アクターの組み合わせは強力な階層的TDとモンテカルロのベースラインと一致し、複雑な長い水平タスクに優れたことが示されている。
- 参考スコア(独自算出の注目度): 10.768601219140153
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Standard approaches to goal-conditioned reinforcement learning (GCRL) that rely on temporal-difference learning can be unstable and sample-inefficient due to bootstrapping. While recent work has explored contrastive and supervised formulations to improve stability, we present a probabilistic alternative, called survival value learning (SVL), that reframes GCRL as a survival learning problem by modeling the time-to-goal from each state as a probability distribution. This structured distributional Monte Carlo perspective yields a closed-form identity that expresses the goal-conditioned value function as a discounted sum of survival probabilities, enabling value estimation via a hazard model trained via maximum likelihood on both event and right-censored trajectories. We introduce three practical value estimators, including finite-horizon truncation and two binned infinite-horizon approximations to capture long-horizon objectives. Experiments on offline GCRL benchmarks show that SVL combined with hierarchical actors matches or surpasses strong hierarchical TD and Monte Carlo baselines, excelling on complex, long-horizon tasks.
- Abstract(参考訳): 時間差学習に依存する目標条件強化学習(GCRL)への標準的アプローチは、ブートストラップにより不安定でサンプル非効率である。
近年の研究では,安定度向上のためのコントラストと教師付き定式化について検討されているが,確率分布として各状態から目標までの時間をモデル化することにより,GCRLを生存学習問題として再編成する確率論的代替法(SVL)が提案されている。
この構造的分布的モンテカルロのパースペクティブは、目標条件付き値関数を生存確率の割引和として表現し、事象と右知覚軌跡の両方で最大極大で訓練されたハザードモデルによる価値推定を可能にする。
有限水平トランケーションと2つの双有界無限水平近似を含む3つの実用値推定器を導入し、長水平目標を捉える。
オフラインのGCRLベンチマークの実験では、SVLと階層的アクターの組み合わせは強力な階層的TDとモンテカルロのベースラインと一致し、複雑な長い水平タスクに優れたことが示されている。
関連論文リスト
- Regularized Latent Dynamics Prediction is a Strong Baseline For Behavioral Foundation Models [35.088440282359024]
行動基礎モデル(BFM)は、未知の報酬やタスクに適応する能力を持つエージェントを生成する。
これらの手法は、既存の状態特徴の範囲内にある報酬関数に対して、ほぼ最適にポリシーを作成できるのみである。
本稿では,ゼロショットRLに対して,最先端の複雑な表現学習手法に適合または超越可能なRLDP(Regularized Latent Dynamics Prediction)を提案する。
論文 参考訳(メタデータ) (2026-03-16T19:39:27Z) - CRL-VLA: Continual Vision-Language-Action Learning [40.18167835795084]
連続強化学習は、生涯にわたるロボットシナリオにVLAモデルをデプロイするための、有望な経路である。
本稿では,厳密な理論的境界を持つVLAモデルの連続的な後学習のためのフレームワークであるCRL-VLAを紹介する。
安定塑性トレードオフと目標条件付き有利度をリンクする統一的な性能境界を,政策のばらつきによって拡張する。
論文 参考訳(メタデータ) (2026-02-03T12:09:53Z) - COVLM-RL: Critical Object-Oriented Reasoning for Autonomous Driving Using VLM-Guided Reinforcement Learning [55.83415345423854]
批判的オブジェクト指向(CO)推論と強化学習(RL)を統合した新しいエンドツーエンド駆動フレームワークCOVLM-RLを提案する。
CARLAシミュレータで行った実験により、COVLM-RLはトレーニング運転環境における成功率を30%向上することが示された。
論文 参考訳(メタデータ) (2025-12-10T06:18:16Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - TD-JEPA: Latent-predictive Representations for Zero-Shot Reinforcement Learning [63.73629127832652]
本稿では,TDに基づく潜在予測表現を教師なしRLに活用するTD-JEPAを紹介する。
TD-JEPAは、明示的な状態とタスクエンコーダ、ポリシー条件付きマルチステップ予測器、パラメータ化されたポリシーのセットを潜時空間で直接訓練する。
実証的には、TD-JEPAは13のデータセットにわたる移動、ナビゲーション、操作のタスクにおいて、最先端のベースラインをマッチまたは上回る。
論文 参考訳(メタデータ) (2025-10-01T10:21:18Z) - Reinforcement Learning with Anticipation: A Hierarchical Approach for Long-Horizon Tasks [3.79187263097166]
長期の目標条件付きタスクの解決は、強化学習において重要な課題である。
Reinforcement Learning with Precipation(RLA)は、これらの制限に対処するために設計された、原則付き、潜在的にスケーラブルなフレームワークです。
RLAの主な特徴は予測モデルのトレーニングであり、これは値の幾何的一貫性の原則によって導かれる。
論文 参考訳(メタデータ) (2025-09-06T00:10:15Z) - VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models [49.78447737655287]
VITAはゼロショット値関数学習法であり、テスト時間適応によって両方の能力を増強する。
オフライン強化学習において,VITAのゼロショット値推定が報酬形成に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-11T18:05:33Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning [33.125187822259186]
オフライン目標定義強化学習(GCRL)は、スパース報酬関数を使用して、オフラインデータセットから純粋な環境において、複数の目標を達成するための学習を行う。
我々は混合分布マッチングの新しいレンズの下でGCRLに新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-03T16:19:33Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。