Fugu-MT 論文翻訳(概要): SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

論文の概要: SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

arxiv url: http://arxiv.org/abs/2603.09378v1
Date: Tue, 10 Mar 2026 08:52:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-11 15:25:24.179977
Title: SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space
Title（参考訳）: SPAARS: 抽象的な探索と改良された行動空間の爆発によるRL政策の整合性確保
Authors: Swaminathan S K, Aritra Hazra,
Abstract要約: オフラインからオンラインへの強化学習(RL)は、安全でオフラインなデモに関するポリシーを事前訓練し、オンラインインタラクションを通じてそれらを微調整することで、ロボット工学に有望なパラダイムを提供する。本研究では,サンプル効率,安全な行動改善のために,まず低次元潜在多様体の探索を制約するカリキュラム学習フレームワークであるSPAARSを紹介する。本稿では、性能差分補題を用いた利用ギャップの上限を証明し、潜時空間政策勾配が生空間探索よりも証明可能な分散化を実現することを証明し、潜時位相における同時動作のクローンがカリキュラムの遷移安定性を直接制御していることを示す。
参考スコア（独自算出の注目度）: 1.8763872698583384
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline-to-online reinforcement learning (RL) offers a promising paradigm for robotics by pre-training policies on safe, offline demonstrations and fine-tuning them via online interaction. However, a fundamental challenge remains: how to safely explore online without deviating from the behavioral support of the offline data? While recent methods leverage conditional variational autoencoders (CVAEs) to bound exploration within a latent space, they inherently suffer from an exploitation gap -- a performance ceiling imposed by the decoder's reconstruction loss. We introduce SPAARS, a curriculum learning framework that initially constrains exploration to the low-dimensional latent manifold for sample-efficient, safe behavioral improvement, then seamlessly transfers control to the raw action space, bypassing the decoder bottleneck. SPAARS has two instantiations: the CVAE-based variant requires only unordered (s,a) pairs and no trajectory segmentation; SPAARS-SUPE pairs SPAARS with OPAL temporal skill pretraining for stronger exploration structure at the cost of requiring trajectory chunks. We prove an upper bound on the exploitation gap using the Performance Difference Lemma, establish that latent-space policy gradients achieve provable variance reduction over raw-space exploration, and show that concurrent behavioral cloning during the latent phase directly controls curriculum transition stability. Empirically, SPAARS-SUPE achieves 0.825 normalized return on kitchen-mixed-v0 versus 0.75 for SUPE, with 5x better sample efficiency; standalone SPAARS achieves 92.7 and 102.9 normalized return on hopper-medium-v2 and walker2d-medium-v2 respectively, surpassing IQL baselines of 66.3 and 78.3 respectively, confirming the utility of the unordered-pair CVAE instantiation.
Abstract（参考訳）: オフライン間強化学習(RL)は、安全でオフラインなデモに関するポリシーを事前訓練し、オンラインインタラクションを通じてそれらを微調整することで、ロボット工学に有望なパラダイムを提供する。しかし、基本的な課題は、オフラインデータの動作サポートから逸脱することなく、オンラインを安全に探索する方法である。近年の手法では、条件付き変分オートエンコーダ(CVAE)を潜伏空間内での探索に利用しているが、本質的には、デコーダの復元損失によって課されるパフォーマンス天井であるエクスプロイトのギャップに悩まされている。サンプル効率, 安全な行動改善のために, 低次元潜在多様体への探索を制約するカリキュラム学習フレームワークであるSPAARSを導入し, そしてデコーダボトルネックを回避して, 生の行動空間への制御をシームレスに転送する。 SPAARSには2つのインスタンスがある: CVAEベースの変種は、順序のない(s,a)ペアのみを必要とし、軌道分割を必要としない。本稿では、性能差分補題を用いた利用ギャップの上限を証明し、潜時空間政策勾配が生空間探索よりも証明可能な分散化を実現することを証明し、潜時位相における同時動作のクローンがカリキュラムの遷移安定性を直接制御していることを示す。実証的には、SPAARS-SUPEはキッチンミックスv0で0.825の正規化リターンを、SUPEで0.75のサンプル効率で達成し、スタンドアローンのSPAARSは92.7と102.9の正規化リターンをホッパー-medium-v2とウォーカー2d-medium-v2で達成し、それぞれ66.3と78.3のIQLベースラインを超えた。

関連論文リスト

RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback [54.39884046754265]
強化学習(RL)で訓練されたLarge Language Model (LLM)ベースのエージェントは、複雑な対話的タスクに強い可能性を示している。我々はRetroAgentを紹介します。RetroAgentは、エージェントが問題解決だけでなく、進化によって複雑な対話環境をマスターすることを可能にするオンラインRLフレームワークです。
論文参考訳（メタデータ） (2026-03-09T16:23:33Z)
Latent Policy Steering through One-Step Flow Policies [34.06099184809882]
オフライン強化学習(RL)により、ロボットはリスクを伴わないオフラインデータセットから学習することができる。遅延ポリシーステアリング(LPS)は、一段階のMeanFlowポリシを通じて、原アクション空間のQ段階をバックプロパゲートすることで、高忠実な遅延ポリシーの改善を可能にする。 OGBenchと現実世界のロボットタスク全体で、LPSは最先端のパフォーマンスを達成し、行動的クローン化と強力な潜在的ステアリングベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2026-03-05T15:38:08Z)
Hybrid Belief Reinforcement Learning for Efficient Coordinated Spatial Exploration [3.0222726254970174]
純粋なモデルに基づくアプローチは、構造化された不確実性推定を提供するが、適応的なポリシー学習を欠いている。本稿では,このギャップに対処するためのハイブリッドな信念強化学習フレームワークを提案する。その結果、累積報酬は10.8%上昇し、ベースラインよりも38%早く収束した。
論文参考訳（メタデータ） (2026-03-04T00:00:34Z)
Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。 CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文参考訳（メタデータ） (2026-02-22T07:23:36Z)
Function-Space Decoupled Diffusion for Forward and Inverse Modeling in Carbon Capture and Storage [65.51149575007149]
本稿では,Fun-DDPSについて述べる。Fun-DDPSは,関数空間拡散モデルと微分可能なニューラル演算子サロゲートを結合した生成フレームワークである。 Fun-DDPSは、ジョイントステートベースラインで観察される高周波アーティファクトから、物理的に一貫した実現をもたらす。
論文参考訳（メタデータ） (2026-02-12T18:58:12Z)
On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral [59.14787085809595]
この障害を引き起こす中核的なメカニズムとしてLazy Likelihood Displacement(LLD)を同定する。 LDDは早期に出現し、自己強化性LDDデススパイラル(LDD Death Spiral)を引き起こす。本稿では,GRPO のための軽量な確率保存正則化 LLDS を提案する。
論文参考訳（メタデータ） (2025-12-03T19:41:15Z)
Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。 Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文参考訳（メタデータ） (2025-10-30T11:53:08Z)
Guardian: Decoupling Exploration from Safety in Reinforcement Learning [12.966077380225856]
ハイブリッドオフラインオンライン強化学習(O2O RL)は、サンプル効率と堅牢な探索の両方を約束するが、オフラインデータとオンラインデータの分散シフトによって不安定に陥る。安全対策から政策最適化を分離するフレームワーク RLPD-GX を紹介する。 Atari-100k上での最先端性能を実証的に示し, 安全性と安定性が向上し, 正常化平均スコア3.02(+45%)を達成した。
論文参考訳（メタデータ） (2025-10-26T22:25:47Z)
Bridging the Synthetic-Real Gap: Supervised Domain Adaptation for Robust Spacecraft 6-DoF Pose Estimation [13.83897333268682]
宇宙船のポース推定は、ランデブー、ドッキング、軌道上のドッキングのような自律的な宇宙活動の基本的な能力である。既存のドメイン適応アプローチは、この問題を軽減することを目的としているが、ラベル付きターゲットサンプルの少ない数が利用できる場合、しばしば性能が低下する。本稿では,SPEキーポイント回帰に適したSDA(Supervised Domain Adaptation)フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-17T08:03:05Z)
Towards Continual Learning Desiderata via HSIC-Bottleneck Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文参考訳（メタデータ） (2024-01-17T09:01:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。