論文の概要: SLAM as a Stochastic Control Problem with Partial Information: Optimal Solutions and Rigorous Approximations
- arxiv url: http://arxiv.org/abs/2604.21693v1
- Date: Thu, 23 Apr 2026 13:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.575674
- Title: SLAM as a Stochastic Control Problem with Partial Information: Optimal Solutions and Rigorous Approximations
- Title(参考訳): 部分情報を用いた確率的制御問題としてのSLAM:最適解と厳密近似
- Authors: Ilir Gusija, Fady Alajaji, Serdar Yüksel,
- Abstract要約: 同時ローカライゼーションとマッピング(SLAM)は,ロボット工学における基礎的状態推定問題である。
最適制御レンズを用いて能動SLAM問題を考察し,部分的情報に基づく意思決定問題として再キャストする。
- 参考スコア(独自算出の注目度): 9.8515164744711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simultaneous localization and mapping (SLAM) is a foundational state estimation problem in robotics in which a robot accurately constructs a map of its environment while also localizing itself within this construction. We study the active SLAM problem through the lens of optimal stochastic control, thereby recasting it as a decision-making problem under partial information. After reviewing several commonly studied models, we present a general stochastic control formulation of active SLAM together with a rigorous treatment of motion, sensing, and map representation. We introduce a new exploration stage cost that encodes the geometry of the state when evaluating information-gathering actions. This formulation, constructed as a nonstandard partially observable Markov decision process (POMDP), is then analyzed to derive rigorously justified approximate solutions that are near-optimal. To enable this analysis, the associated regularity conditions are studied under general assumptions that apply to a wide range of robotics applications. For a particular case, we conduct an extensive numerical study in which standard learning algorithms are used to learn near-optimal policies.
- Abstract(参考訳): SLAMはロボット工学における基礎的状態推定問題であり、ロボットが環境の地図を正確に構築し、またその構成内で自身を位置付けする。
最適確率制御のレンズを用いて能動SLAM問題を考察し、部分的情報に基づく意思決定問題として再放送する。
いくつかのよく研究されているモデルについてレビューした後、動作、センシング、地図表現の厳密な処理とともに、アクティブSLAMの確率論的制御の一般的な定式化を提案する。
我々は,情報収集行動を評価する際に,状態の幾何をエンコードする新たな探索段階コストを導入する。
この定式化は、非標準部分可観測マルコフ決定過程 (POMDP) として構成され、ほぼ最適である厳密に正当化された近似解を導出するために分析される。
この分析を可能にするために、関連する正則性条件は、幅広いロボット工学応用に適用できる一般的な仮定の下で研究される。
特定の場合において、我々は、標準的な学習アルゴリズムを用いて、準最適ポリシーを学習する広範囲な数値的研究を行う。
関連論文リスト
- CT-VoxelMap: Efficient Continuous-Time LiDAR-Inertial Odometry with Probabilistic Adaptive Voxel Mapping [15.34037575218496]
本稿では,B-スプラインの累積形式に基づく新しい連続時間オドメトリー法を提案する。
我々はIMU測定による前方伝播情報を用いて、オンラインの適合誤差を推定し、ハイブリッドな特徴ベースのボクセルマップ管理戦略を導入する。
提案手法は、複数の課題のある公開データセット上で評価され、ほとんどのシーケンスにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2026-04-04T14:27:54Z) - Error Propagation in Dynamic Programming: From Stochastic Control to Option Pricing [0.12891210250935145]
本稿では、離散時間における最適制御(SOC)の理論的および方法論的基礎について検討する。
制御問題を一般的な動的プログラミングフレームワークで定式化し、詳細な収束解析に必要な数学的構造を導入する。
我々は、我々の分析が重要な金融アプリケーション、すなわちアメリカのオプションの価格にどのように自然に適用するかを説明します。
論文 参考訳(メタデータ) (2025-09-24T15:30:19Z) - Bellman Optimality of Average-Reward Robust Markov Decision Processes with a Constant Gain [11.174902793218834]
長期にわたる平均再帰の定式化は、多くの運用研究や管理の文脈では自然であるが、まだ過小評価されている。
本稿では, 定常ゲイン設定を解析し, 平均回帰ロバストMDPの一般的な枠組みに向けて進む。
論文 参考訳(メタデータ) (2025-09-17T17:36:06Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Data-driven rules for multidimensional reflection problems [1.0742675209112622]
反射型制御を伴う可逆拡散に対する多変量特異制御問題について検討する。
与えられた拡散力学に対して、最適な領域が強い星型であると仮定し、ポリトープ近似に基づく勾配降下アルゴリズムを提案し、コスト最小化領域を数値的に決定する。
最後に,制御器に拡散力学が未知な場合のデータ駆動型解について検討する。
論文 参考訳(メタデータ) (2023-11-11T18:36:17Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - A Kernel-Based Approach to Non-Stationary Reinforcement Learning in
Metric Spaces [53.47210316424326]
KeRNSは、非定常マルコフ決定過程におけるエピソード強化学習のためのアルゴリズムである。
我々は、状態-作用空間の被覆次元と時間とともにMDPの総変動にスケールする後悔境界を証明した。
論文 参考訳(メタデータ) (2020-07-09T21:37:13Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。