論文の概要: On the Equilibrium between Feasible Zone and Uncertain Model in Safe Exploration
- arxiv url: http://arxiv.org/abs/2602.00636v2
- Date: Wed, 04 Feb 2026 03:09:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.633596
- Title: On the Equilibrium between Feasible Zone and Uncertain Model in Safe Exploration
- Title(参考訳): 安全な探査における可能性ゾーンと不確かさモデル間の平衡について
- Authors: Yujie Yang, Zhilong Zheng, Shengbo Eben Li,
- Abstract要約: 本稿では,安全な探査の目的が,実現可能なゾーンと環境モデルとの均衡を見出すことであることを明らかにした。
より大きな実現可能なゾーンはより正確な環境モデルをもたらし、より正確なモデルにより、より大きなゾーンを探索することができる。
本稿では,最大許容域の探索と不確実なモデルとの交互に行う安全平衡探索(SEE)と呼ばれる,最初の平衡指向型安全な探査フレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.686686613778345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring the safety of environmental exploration is a critical problem in reinforcement learning (RL). While limiting exploration to a feasible zone has become widely accepted as a way to ensure safety, key questions remain unresolved: what is the maximum feasible zone achievable through exploration, and how can it be identified? This paper, for the first time, answers these questions by revealing that the goal of safe exploration is to find the equilibrium between the feasible zone and the environment model. This conclusion is based on the understanding that these two components are interdependent: a larger feasible zone leads to a more accurate environment model, and a more accurate model, in turn, enables exploring a larger zone. We propose the first equilibrium-oriented safe exploration framework called safe equilibrium exploration (SEE), which alternates between finding the maximum feasible zone and the least uncertain model. Using a graph formulation of the uncertain model, we prove that the uncertain model obtained by SEE is monotonically refined, the feasible zones monotonically expand, and both converge to the equilibrium of safe exploration. Experiments on classic control tasks show that our algorithm successfully expands the feasible zones with zero constraint violation, and achieves the equilibrium of safe exploration within a few iterations.
- Abstract(参考訳): 環境探索の安全性を確保することは、強化学習(RL)において重要な問題である。
実現可能なゾーンへの探索の制限は、安全を確保する手段として広く受け入れられているが、重要な疑問は未解決のままである。
本論文は, 安全な探査の目的が, 実現可能なゾーンと環境モデルとの均衡を見つけることであることを明らかにすることによって, これらの疑問に初めて答えるものである。
この結論は、これらの2つのコンポーネントが相互依存しているという理解に基づいており、より大きな実現可能なゾーンはより正確な環境モデルをもたらし、より正確なモデルはより大きなゾーンを探索することができる。
本稿では,最大許容域の探索と不確実なモデルとの交互に行う安全平衡探索(SEE)と呼ばれる,最初の平衡指向型安全な探査フレームワークを提案する。
不確実性モデルのグラフ定式化を用いて、SEEによって得られた不確実性モデルは単調に洗練され、実現可能なゾーンは単調に膨張し、どちらも安全な探査の均衡に収束することを示す。
古典的制御タスクの実験から,本アルゴリズムは制約違反ゼロで実現可能な領域を拡張し,数回の反復で安全な探索の均衡を達成できることが示されている。
関連論文リスト
- Goal Discovery with Causal Capacity for Efficient Reinforcement Learning [85.28685202281918]
因果推論は人間が世界を探検するのに不可欠である。
本稿では,効率的な環境探索のための新たなゴールディスカバリーと因果容量フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-13T08:54:56Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - Safe Guaranteed Exploration for Non-linear Systems [41.283528662322574]
本稿では,最適制御を用いた新しい安全な探索フレームワークを提案する。
我々は,モデル予測制御を用いたSageMPC,SAfe保証探索を提案することにより,この汎用フレームワークの効率を向上する。
自動車モデルを用いたSageMPCを用いた未知環境の安全な探索実験を行った。
論文 参考訳(メタデータ) (2024-02-09T17:26:26Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Risk-aware Meta-level Decision Making for Exploration Under Uncertainty [33.84356557132826]
本稿では,地域・グローバル探索に伴うトレードオフのバランスをとるために,リスク対応型メタレベル意思決定フレームワークを提案する。
その結果,局所探査とグローバル探査のバランスをとることで,より効率的に大規模環境を探索できることが示唆された。
論文 参考訳(メタデータ) (2022-09-12T20:05:14Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。