Fugu-MT 論文翻訳(概要): Autonomous sPOMDP Environment Modeling With Partial Model Exploitation

論文の概要: Autonomous sPOMDP Environment Modeling With Partial Model Exploitation

arxiv url: http://arxiv.org/abs/2012.12203v1
Date: Tue, 22 Dec 2020 17:48:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-26 07:25:35.319849
Title: Autonomous sPOMDP Environment Modeling With Partial Model Exploitation
Title（参考訳）: 部分モデル活用による自律的なspmdp環境モデリング
Authors: Andrew Wilhelm, Aaron Wilhelm, Garrett Fosdick
Abstract要約: 独自のサプライズに基づく部分観測可能なマルコフ決定過程(sPOMDP)を拡張した新しい状態空間探索アルゴリズムを提案する。提案手法は,学習速度が31～63%向上した元のsPOMDP学習手法の効率性とスケーラビリティを著しく向上することを示す。以上の結果から,SPOMDPソリューションをより広い環境に拡張する道を開いた。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A state space representation of an environment is a classic and yet powerful tool used by many autonomous robotic systems for efficient and often optimal solution planning. However, designing these representations with high performance is laborious and costly, necessitating an effective and versatile tool for autonomous generation of state spaces for autonomous robots. We present a novel state space exploration algorithm by extending the original surprise-based partially-observable Markov Decision Processes (sPOMDP), and demonstrate its effective long-term exploration planning performance in various environments. Through extensive simulation experiments, we show the proposed model significantly increases efficiency and scalability of the original sPOMDP learning techniques with a range of 31-63% gain in training speed while improving robustness in environments with less deterministic transitions. Our results pave the way for extending sPOMDP solutions to a broader set of environments.
Abstract（参考訳）: 環境の状態空間表現は、多くの自律ロボットシステムが効率的かつしばしば最適なソリューション計画のために使用している古典的で強力なツールである。しかし、これらの表現を高性能で設計するには、自律ロボットのための自律的な状態空間を生成するための効果的で汎用的なツールが必要である。本稿では,サプライズに基づく部分観測可能なマルコフ決定プロセス(spomdp)を拡張し,様々な環境における長期探査計画性能を実証する新しい状態空間探索アルゴリズムを提案する。広範なシミュレーション実験により,本モデルでは,学習速度が31～63%向上し,学習速度が31～63%向上し,学習効率と拡張性が大幅に向上することを示す。以上の結果から,SPOMDPソリューションをより広い環境に拡張する道を開いた。

関連論文リスト

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models [79.53092337527382]
本稿では,DDP-WMについて紹介する。DDP-WMはDDP-WM(Distangled Dynamics Prediction)の原理に基づく新しい世界モデルである。 DDP-WMは、効率的な履歴処理と動的ローカライゼーションを統合したアーキテクチャにより、この分解を実現する。実験により、DDP-WMは様々なタスクにおいて、大幅な効率と性能を達成することが示された。
論文参考訳（メタデータ） (2026-02-02T08:04:25Z)
Latent Adaptive Planner for Dynamic Manipulation [44.885020943751464]
Latent Adaptive Planner (LAP) は動的非包括的操作タスクのための新しいアプローチである。 LAPは、人間のデモビデオから効果的に学んだ潜在空間推論として計画を定式化している。
論文参考訳（メタデータ） (2025-05-06T00:09:09Z)
ToolACE-R: Tool Learning with Adaptive Self-Refinement [84.69651852838794]
ツール学習により、大規模言語モデルは複雑なユーザタスクを解決するための外部ツールを活用することができる。本稿では,ツール実行のための適応型自己調整手法であるToolACE-Rを提案する。提案手法は,様々なサイズのベースモデルと互換性のある提案手法の有効性を実証した。
論文参考訳（メタデータ） (2025-04-02T06:38:56Z)
Simultaneous Multi-Robot Motion Planning with Projected Diffusion Models [57.45019514036948]
MRMP拡散(SMD)は、制約付き最適化を拡散サンプリングプロセスに統合し、運動学的に実現可能な軌道を生成する新しい手法である。本稿では, ロボット密度, 障害物の複雑度, 動作制約の異なるシナリオ間の軌道計画アルゴリズムを評価するための総合的MRMPベンチマークを提案する。
論文参考訳（メタデータ） (2025-02-05T20:51:28Z)
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文参考訳（メタデータ） (2025-01-17T10:39:09Z)
Machine Learning-Accelerated Multi-Objective Design of Fractured Geothermal Systems [17.040963667188525]
本稿では, フラクチャードメディアにおける熱水シミュレーションと統合した, 能動学習による進化的多目的最適化アルゴリズムについて報告する。 ALEMO法は従来の進化法に比べて1～2桁の速度(10～100倍)で、必要なシミュレーションを著しく削減することを示した。
論文参考訳（メタデータ） (2024-11-01T10:39:23Z)
Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。 HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文参考訳（メタデータ） (2024-10-04T06:19:29Z)
R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-09-21T18:32:44Z)
MambaLoc: Efficient Camera Localisation via State Space Model [42.85368902409545]
位置情報は、端末デバイスと自動運転車や拡張現実のようなエッジクラウドIoTシステムの自動化とインテリジェンスにとって重要なものだ。さまざまなIoTアプリケーションにまたがる信頼性の高い位置決めを実現することは、トレーニングコストの大幅な増加と、密集したデータの必要性により、依然として困難である。我々は,選択状態空間(SSM)モデルを視覚的ローカライゼーションに革新的に応用し,MambaLocという新しいモデルを導入した。
論文参考訳（メタデータ） (2024-08-19T03:38:29Z)
A Meta-Engine Framework for Interleaved Task and Motion Planning using Topological Refinements [51.54559117314768]
タスク・アンド・モーション・プランニング(タスク・アンド・モーション・プランニング、TAMP)は、自動化された計画問題の解決策を見つけるための問題である。本稿では,TAMP問題のモデル化とベンチマークを行うための,汎用的でオープンソースのフレームワークを提案する。移動エージェントと複数のタスク状態依存障害を含むTAMP問題を解決する革新的なメタ技術を導入する。
論文参考訳（メタデータ） (2024-08-11T14:57:57Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
DREAM: Decentralized Reinforcement Learning for Exploration and Efficient Energy Management in Multi-Robot Systems [14.266876062352424]
資源制約されたロボットは、しばしばエネルギー不足、不適切なタスク割り当てによる計算能力の不足、動的環境における堅牢性の欠如に悩まされる。本稿では,マルチロボットシステムにおける探索と効率的なエネルギー管理のための分散強化学習DREAMを紹介する。
論文参考訳（メタデータ） (2023-09-29T17:43:41Z)
Distributionally Robust Model-based Reinforcement Learning with Large State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文参考訳（メタデータ） (2023-09-05T13:42:11Z)
Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved Proximal Policy Optimization [6.067589886362815]
本稿では,6-DoFマニピュレータのタスク空間から関節空間にマップするために,改良されたPPOアルゴリズムを用いて深層ニューラルネットワークを訓練する。実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。実験結果から,ロボットは非構造環境下で1つの目標をトラッキングしたり,複数の目標に到達することができた。
論文参考訳（メタデータ） (2022-10-03T10:21:57Z)
Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文参考訳（メタデータ） (2021-06-19T18:06:11Z)
Scalable Multi-Robot System for Non-myopic Spatial Sampling [9.37678298330157]
本稿では,空間場の非一様サンプリングのためのスケーラブルな分散マルチロボット計画アルゴリズムを提案する。我々は,複数のロボット間のコミュニケーションがチーム全体のサンプリング性能に与える影響を,独立して分析する。
論文参考訳（メタデータ） (2021-05-20T20:30:10Z)
Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文参考訳（メタデータ） (2020-05-04T05:35:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。