論文の概要: Composable Model-Free RL for Navigation with Input-Affine Systems
- arxiv url: http://arxiv.org/abs/2602.12492v1
- Date: Fri, 13 Feb 2026 00:19:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.79722
- Title: Composable Model-Free RL for Navigation with Input-Affine Systems
- Title(参考訳): 入力アフィンシステムを用いたナビゲーションのための構成可能なモデルフリーRL
- Authors: Xinhuan Sang, Abdelrahman Abdelgawad, Roberto Tron,
- Abstract要約: 自律型ロボットが複雑でダイナミックな現実世界の環境に移動するとき、彼らはリアルタイムで安全にナビゲートすることを学ぶ必要がある。
本研究では,各環境要素の値関数と最適ポリシーを学習する構成可能なモデルフリー強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 3.2917282915992883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As autonomous robots move into complex, dynamic real-world environments, they must learn to navigate safely in real time, yet anticipating all possible behaviors is infeasible. We propose a composable, model-free reinforcement learning method that learns a value function and an optimal policy for each individual environment element (e.g., goal or obstacle) and composes them online to achieve goal reaching and collision avoidance. Assuming unknown nonlinear dynamics that evolve in continuous time and are input-affine, we derive a continuous-time Hamilton-Jacobi-Bellman (HJB) equation for the value function and show that the corresponding advantage function is quadratic in the action and optimal policy. Based on this structure, we introduce a model-free actor-critic algorithm that learns policies and value functions for static or moving obstacles using gradient descent. We then compose multiple reach/avoid models via a quadratically constrained quadratic program (QCQP), yielding formal obstacle-avoidance guarantees in terms of value-function level sets, providing a model-free alternative to CLF/CBF-based controllers. Simulations demonstrate improved performance over a PPO baseline applied to a discrete-time approximation.
- Abstract(参考訳): 自律型ロボットが複雑な、ダイナミックな現実世界の環境に移動するとき、彼らはリアルタイムで安全にナビゲートすることを学ばなければならない。
本研究では,各環境要素(例えば,目標や障害物)の値関数と最適ポリシーを学習し,目標到達と衝突回避を達成するためにオンラインで構成する構成可能なモデルフリー強化学習手法を提案する。
連続時間で進化し入力-アフィンである未知の非線形ダイナミクスを仮定すると、値関数に対する連続時間ハミルトン-ヤコビ-ベルマン方程式を導出し、対応する有利関数が作用と最適ポリシーにおいて二次的であることを示す。
この構造に基づいて、勾配降下を用いた静的障害物や移動障害物に対するポリシーと値関数を学習するモデルフリーアクター批判アルゴリズムを提案する。
次に、2次制約付き二次プログラム(QCQP)を介して複数のリーチ/アビドモデルを構成し、値関数レベルセットの観点から正式な障害物回避保証を与え、CLF/CBFベースのコントローラに代わるモデルなしの代替を提供する。
シミュレーションにより離散時間近似に適用したPPOベースラインの性能が向上した。
関連論文リスト
- Latent Spherical Flow Policy for Reinforcement Learning with Combinatorial Actions [31.697208397735395]
既存のアプローチでは、タスク固有の値関数を制約付き最適化プログラムに組み込むか、決定論的構造化ポリシーを学習し、汎用性とポリシー表現性を犠牲にする。
本稿では, 設計による実現性を確保しつつ, 近代的な生成ポリシーの表現性をRLにもたらす, 解法による球面フローポリシーを提案する。
我々のアプローチは、さまざまな課題RLタスクにおいて、最先端のベースラインを平均20.6%上回る。
論文 参考訳(メタデータ) (2026-01-29T18:49:07Z) - Efficient Inference for Inverse Reinforcement Learning and Dynamic Discrete Choice Models [35.877107409163784]
逆強化学習(IRL)と動的離散選択(DDC)モデルは、観察された振る舞いを合理化する報酬関数を回復することにより、シーケンシャルな意思決定を説明する。
本研究では,広義の報酬依存関数に対して統計的に効率的な推論を行う半パラメトリックな逆強化学習フレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-30T18:41:05Z) - Operator Models for Continuous-Time Offline Reinforcement Learning [4.808981008878068]
環境との直接の相互作用は、しばしば安全でないか非現実的であり、歴史的データからオフラインの強化学習を動機付けている。
ハミルトン・ヤコビ・ベルマン方程式に強化学習をリンクし、演算子理論のアルゴリズムを提案することでこの問題に対処する。
具体的には、再生カーネルヒルベルト空間で学習した制御拡散過程の無限小生成という観点から世界モデルを表現している。
論文 参考訳(メタデータ) (2025-11-13T14:58:30Z) - Constrained Decoding for Robotics Foundation Models [12.916330118607918]
本稿では,自動回帰ロボット基盤モデルのための制約付き復号化フレームワークであるSafeDecを紹介する。
タスク固有の安全ルールはSignal Temporal Logic (STL) 公式として表現され、最小限のオーバーヘッドで推論時に強制される。
提案手法は,実行時に仮定された動的条件下でのSTL仕様を,再トレーニングなしで確実に満たすものである。
論文 参考訳(メタデータ) (2025-09-01T19:17:40Z) - Action Flow Matching for Continual Robot Learning [54.10050120844738]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。
本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。
ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文 参考訳(メタデータ) (2025-04-25T16:26:15Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Value Iteration in Continuous Actions, States and Time [99.00362538261972]
連続状態と動作に対する連続的適合値反復(cFVI)アルゴリズムを提案する。
非線形制御アフィンダイナミクスに対して最適なポリシを導出することができる。
物理システムのビデオは、urlhttps://sites.google.com/view/value-iteration.comで入手できる。
論文 参考訳(メタデータ) (2021-05-10T21:40:56Z) - Learning Off-Policy with Online Planning [18.63424441772675]
本研究では,学習モデルと端末値関数を用いたHステップルックアヘッドの新たなインスタンス化について検討する。
ナビゲーション環境の集合に配置する際の安全性制約を組み込むLOOPの柔軟性を示す。
論文 参考訳(メタデータ) (2020-08-23T16:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。