論文の概要: Escaping Offline Pessimism: Vector-Field Reward Shaping for Safe Frontier Exploration
- arxiv url: http://arxiv.org/abs/2603.18326v1
- Date: Wed, 18 Mar 2026 22:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.868309
- Title: Escaping Offline Pessimism: Vector-Field Reward Shaping for Safe Frontier Exploration
- Title(参考訳): オフラインペシミズムから逃れる: 安全なフロンティア探査のためのベクトルフィールドリワード整形
- Authors: Amirhossein Roknilamouki, Arnob Ghosh, Eylem Ekici, Ness B. Shroff,
- Abstract要約: 本研究では,非適応的配置ポリシーに対して,連続的かつ安全な境界探索を誘導するベクトル場報酬形成パラダイムを提案する。
我々の報酬は、対象の不確かさレベルに向かってエージェントを引き付ける勾配配向項と、不確かさ多様体の局所接面に沿って運動を促進する回転流項とを組み合わせる。
この報奨構造は, 縮退した解を防止しつつ, 境界沿いの持続的な探索的挙動を自然に引き起こすことを示す。
- 参考スコア(独自算出の注目度): 28.751183657467646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While offline reinforcement learning provides reliable policies for real-world deployment, its inherent pessimism severely restricts an agent's ability to explore and collect novel data online. Drawing inspiration from safe reinforcement learning, exploring near the boundary of regions well covered by the offline dataset and reliably modeled by the simulator allows an agent to take manageable risks--venturing into informative but moderate-uncertainty states while remaining close enough to familiar regions for safe recovery. However, naively rewarding this boundary-seeking behavior can lead to a degenerate parking behavior, where the agent simply stops once it reaches the frontier. To solve this, we propose a novel vector-field reward shaping paradigm designed to induce continuous, safe boundary exploration for non-adaptive deployed policies. Operating on an uncertainty oracle trained from offline data, our reward combines two complementary components: a gradient-alignment term that attracts the agent toward a target uncertainty level, and a rotational-flow term that promotes motion along the local tangent plane of the uncertainty manifold. Through theoretical analysis, we show that this reward structure naturally induces sustained exploratory behavior along the boundary while preventing degenerate solutions. Empirically, by integrating our proposed reward shaping with Soft Actor-Critic on a 2D continuous navigation task, we validate that agents successfully traverse uncertainty boundaries while balancing safe, informative data collection with primary task completion.
- Abstract(参考訳): オフライン強化学習は実世界の展開に信頼できるポリシーを提供するが、その固有の悲観主義は、エージェントがオンラインで新しいデータを探索し収集する能力を著しく制限する。
安全な強化学習からインスピレーションを得て、オフラインデータセットでよくカバーされ、シミュレータによって確実にモデル化された領域の境界付近を探索することで、エージェントは管理可能なリスクを取ることができる。
しかし、この境界探索行動に鼻で報酬を与えると、そのエージェントがフロンティアに到達すると単に停止する、縮退した駐車行動につながる可能性がある。
そこで本研究では,非適応型配置ポリシーに対して,連続的かつ安全な境界探索を誘導するベクトル場報酬形成パラダイムを提案する。
オフラインデータから訓練された不確実性オラクルを運用し、対象の不確実性レベルにエージェントを引き付ける勾配配向項と、不確か性多様体の局所接面に沿った運動を促進する回転流項の2つの相補的成分を組み合わせる。
理論的解析により、この報酬構造は、縮退した解を防止しつつ、境界に沿った持続的な探索的挙動を自然に引き起こすことを示す。
実験では,2次元連続ナビゲーションタスクにおいて,ソフトアクター・クライブに報酬形を組み込むことにより,エージェントが安全かつ情報性の高いデータ収集と一次タスク完了のバランスを保ちながら不確実性境界を横切ることに成功した。
関連論文リスト
- HomeGuard: VLM-based Embodied Safeguard for Identifying Contextual Risk in Household Task [42.665798473119516]
CG-CoT(Context-Guided Chain-of-Thought)を特徴とするアーキテクチャ非依存型セーフガードを提案する。
CG-CoTは、リスクアセスメントをアクティブな知覚に分解し、相互作用対象や関連する空間近傍への注意を順次固定する。
実験により、我々のモデルであるHomeGuardは安全性を大幅に向上し、ベースモデルと比較してリスクマッチ率を30%以上改善することが示された。
論文 参考訳(メタデータ) (2026-03-15T13:09:43Z) - Toward Operationalizing Rasmussen: Drift Observability on the Simplex for Evolving Systems [0.0]
障害へのドリフトのモニタリングはユークリッド異常検出によって妨げられる。
ラスムッセンの動的安全モデルは、競合する圧力の下でドリフトを動機付ける。
そこで本研究では,単純度に基づくドリフト可観測性に関するビジョンを提案する。
論文 参考訳(メタデータ) (2026-02-05T09:41:49Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - Verification-Guided Falsification for Safe RL via Explainable Abstraction and Risk-Aware Exploration [8.246285288584625]
本稿では、説明可能性、モデルチェック、リスク誘導のファルシフィケーションを統合し、厳密性とカバレッジを両立させるハイブリッドフレームワークを提案する。
我々のアプローチは、包括的抽象ポリシー要約(CAPS)を用いたRLポリシーの人間解釈可能な抽象化の構築から始まる。
違反が検出されない場合、オフラインデータセットの抽象化とカバレッジに制限があるため、満足度を結論付けることはできません。
論文 参考訳(メタデータ) (2025-06-04T00:54:01Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Probabilistic Counterexample Guidance for Safer Reinforcement Learning
(Extended Version) [1.279257604152629]
セーフサーベイは、安全クリティカルなシナリオにおける強化学習(RL)の限界に対処することを目的としている。
外部知識を取り入れたり、センサデータを使って安全でない状態の探索を制限する方法はいくつか存在する。
本稿では,安全要件の反例によるトレーニングを指導することで,安全な探査の課題をターゲットにする。
論文 参考訳(メタデータ) (2023-07-10T22:28:33Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。