論文の概要: MEMBOT: Memory-Based Robot in Intermittent POMDP
- arxiv url: http://arxiv.org/abs/2509.11225v1
- Date: Sun, 14 Sep 2025 12:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.984348
- Title: MEMBOT: Memory-Based Robot in Intermittent POMDP
- Title(参考訳): MEMBOT: 間欠的PMDPにおけるメモリベースロボット
- Authors: Youzhi Liang, Eyan Noronha,
- Abstract要約: MEMBOTは、ロボット制御タスクにおける間欠的な部分的可観測性に対処するために設計されたメモリベースのアーキテクチャである。
我々はMetaWorldとRoomimicの10のロボット操作ベンチマークタスクでMEMBOTをトレーニングし評価する。
その結果,MEMBOTはメモリレスベースラインと鼻リカレントベースラインの両方を一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic systems deployed in real-world environments often operate under conditions of partial and often intermittent observability, where sensor inputs may be noisy, occluded, or entirely unavailable due to failures or environmental constraints. Traditional reinforcement learning (RL) approaches that assume full state observability are ill-equipped for such challenges. In this work, we introduce MEMBOT, a modular memory-based architecture designed to address intermittent partial observability in robotic control tasks. MEMBOT decouples belief inference from policy learning through a two-phase training process: an offline multi-task learning pretraining stage that learns a robust task-agnostic latent belief encoder using a reconstruction losses, followed by fine-tuning of task-specific policies using behavior cloning. The belief encoder, implemented as a state-space model (SSM) and a LSTM, integrates temporal sequences of observations and actions to infer latent state representations that persist even when observations are dropped. We train and evaluate MEMBOT on 10 robotic manipulation benchmark tasks from MetaWorld and Robomimic under varying rates of observation dropout. Results show that MEMBOT consistently outperforms both memoryless and naively recurrent baselines, maintaining up to 80% of peak performance under 50% observation availability. These findings highlight the effectiveness of explicit belief modeling in achieving robust, transferable, and data-efficient policies for real-world partially observable robotic systems.
- Abstract(参考訳): 現実の環境に配備されたロボットシステムは、しばしば部分的かつしばしば断続的な観測性の下で動作し、そこでは、センサー入力はノイズがあり、無視され、あるいは障害や環境制約のために完全に利用できない。
状態の可観測性を前提とした従来の強化学習(RL)アプローチは、このような課題に不適当である。
本稿では,ロボット制御タスクにおける間欠的部分観測性に対処するモジュール型メモリベースアーキテクチャであるMEMBOTを紹介する。
MEMBOTは、2段階の学習プロセスを通じてポリシー学習からの信念推論を分離する: オフラインのマルチタスク学習事前訓練段階で、復元損失を用いて堅牢なタスク非依存の潜在的信念エンコーダを学習し、続いて行動クローニングを用いてタスク固有のポリシーを微調整する。
状態空間モデル (SSM) とLSTM (LSTM) として実装された信念エンコーダは、観測と行動の時間的シーケンスを統合し、観測がドロップしても持続する潜時状態表現を推論する。
我々は,MetaWorld と Robomimic から 10 個のロボット操作ベンチマークタスク上で,様々な速度でMEMBOT をトレーニングし,評価する。
以上の結果から,MEMBOTはメモリレスベースラインと鼻リカレントベースラインの両方を一貫して上回り,50%の可観測率でピーク性能の最大80%を維持していることがわかった。
これらの知見は、実世界の部分的に観測可能なロボットシステムに対して、堅牢で、転送可能で、データ効率のよいポリシーを実現するための明示的な信念モデリングの有効性を浮き彫りにした。
関連論文リスト
- Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。
セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。
提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-03-10T06:18:31Z) - Dynamic Non-Prehensile Object Transport via Model-Predictive Reinforcement Learning [24.079032278280447]
バッチ強化学習(RL)とモデル予測制御(MPC)を組み合わせたアプローチを提案する。
提案手法は,ロボットウェイタータスクを実行するFranka Pandaロボットのシミュレーションおよび実世界実験により検証される。
論文 参考訳(メタデータ) (2024-11-27T03:33:42Z) - R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。
我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-21T18:32:44Z) - Model-Based Runtime Monitoring with Interactive Imitation Learning [30.70994322652745]
本研究は,タスク実行中のエラーを監視し,検出する能力を備えたロボットの実現を目的とする。
本稿では,デプロイメントデータからシステム異常を検出し,障害を予測するためのモデルベースランタイム監視アルゴリズムを提案する。
本手法は, シミュレーションおよび物理ハードウェアにおいて, 23%, 40%高い成功率で, システムレベルおよび単体テストの基準線を上回り, 性能を向上する。
論文 参考訳(メタデータ) (2023-10-26T16:45:44Z) - DiAReL: Reinforcement Learning with Disturbance Awareness for Robust
Sim2Real Policy Transfer in Robot Control [0.0]
遅延マルコフ決定プロセスは、最近コミットされたアクションの有限時間ウィンドウでエージェントの状態空間を拡大することでマルコフ特性を満たす。
本稿では,遅延した環境下での乱れ増進型マルコフ決定プロセスを導入し,政治強化学習アルゴリズムのトレーニングにおける乱れ推定を取り入れた新しい表現法を提案する。
論文 参考訳(メタデータ) (2023-06-15T10:11:38Z) - Bridging Active Exploration and Uncertainty-Aware Deployment Using
Probabilistic Ensemble Neural Network Dynamics [11.946807588018595]
本稿では,活発な探索と不確実性を考慮した展開を橋渡しするモデルベース強化学習フレームワークを提案する。
探索と展開の対立する2つのタスクは、最先端のサンプリングベースのMPCによって最適化されている。
自動運転車と車輪付きロボットの両方で実験を行い、探索と展開の両方に有望な結果を示します。
論文 参考訳(メタデータ) (2023-05-20T17:20:12Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - MELD: Meta-Reinforcement Learning from Images via Latent State Models [109.1664295663325]
我々は,遅延状態モデルで推論を行う画像からメタRLのアルゴリズムを開発し,新しいスキルを素早く獲得する。
MELDは、画像から現実のロボット制御設定でトレーニングされた最初のメタRLアルゴリズムである。
論文 参考訳(メタデータ) (2020-10-26T23:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。