論文の概要: Adaptive Sampling using POMDPs with Domain-Specific Considerations
- arxiv url: http://arxiv.org/abs/2109.11595v1
- Date: Thu, 23 Sep 2021 19:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:07:53.272219
- Title: Adaptive Sampling using POMDPs with Domain-Specific Considerations
- Title(参考訳): ドメイン特化を考慮したPMDPを用いた適応サンプリング
- Authors: Gautam Salhotra, Christopher E. Denniston, David A. Caron, Gaurav S.
Sukhatme
- Abstract要約: 適応サンプリング問題に対するモンテカルロ木探索に基づく解法の改良について検討する。
本稿では,ロールアウトアロケーション,アクション探索アルゴリズム,計画コミットメントの改善を提案する。
一つの計画木から取られたアクションの数を増やすことにより,ロールアウト回数を大幅に削減できることを示す。
- 参考スコア(独自算出の注目度): 9.670635276589248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate improving Monte Carlo Tree Search based solvers for Partially
Observable Markov Decision Processes (POMDPs), when applied to adaptive
sampling problems. We propose improvements in rollout allocation, the action
exploration algorithm, and plan commitment. The first allocates a different
number of rollouts depending on how many actions the agent has taken in an
episode. We find that rollouts are more valuable after some initial information
is gained about the environment. Thus, a linear increase in the number of
rollouts, i.e. allocating a fixed number at each step, is not appropriate for
adaptive sampling tasks. The second alters which actions the agent chooses to
explore when building the planning tree. We find that by using knowledge of the
number of rollouts allocated, the agent can more effectively choose actions to
explore. The third improvement is in determining how many actions the agent
should take from one plan. Typically, an agent will plan to take the first
action from the planning tree and then call the planner again from the new
state. Using statistical techniques, we show that it is possible to greatly
reduce the number of rollouts by increasing the number of actions taken from a
single planning tree without affecting the agent's final reward. Finally, we
demonstrate experimentally, on simulated and real aquatic data from an
underwater robot, that these improvements can be combined, leading to better
adaptive sampling. The code for this work is available at
https://github.com/uscresl/AdaptiveSamplingPOMCP
- Abstract(参考訳): 適応サンプリング問題に適用した場合に,モンテカルロ木探索に基づく部分観測可能なマルコフ決定プロセス(POMDPs)の改善について検討する。
我々は,ロールアウト割り当て,行動探索アルゴリズム,計画コミットメントの改善を提案する。
1回目は、エージェントがエピソードで取ってきたアクションの数に応じて、異なる数のロールアウトを割り当てる。
環境に関する最初の情報が得られた後、ロールアウトがより価値があることが分かりました。
したがって、各ステップで固定数を割り当てるロールアウト数の線形増加は、適応的なサンプリングタスクには適さない。
2つ目は、プランニングツリーを構築する際にエージェントが探索するアクションを変更する。
割り当てられたロールアウト数の知識を利用することで、エージェントはより効果的に探索するアクションを選択することができる。
3つ目の改善は、エージェントが1つの計画から取るべきアクションの数を決定することである。
通常、エージェントは計画ツリーから最初のアクションを取り、それから新しい状態から再びプランナーを呼び出す計画です。
統計的手法を用いて,エージェントの最終報酬に影響を与えることなく,単一のプランニングツリーからのアクション数を増加させることで,ロールアウト数を大幅に削減できることを示す。
最後に,水中ロボットのシミュレーションおよび実水中データを用いて,これらの改良が組み合わされ,適応サンプリングの精度が向上することを示した。
この作業のコードはhttps://github.com/uscresl/adaptivesamplingpomcpで入手できる。
関連論文リスト
- Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Octo-planner: On-device Language Model for Planner-Action Agents [19.627197141903505]
Planner-Actionフレームワークは、計画とアクションの実行を2つの異なるコンポーネントに分離する。
Agentはまず、タスクをサブステップのシーケンスに分解してユーザクエリに応答し、アクションエージェントによって実行される。
我々は、文脈内学習の代わりにモデル微調整を採用し、計算コストとエネルギー消費を削減した。
論文 参考訳(メタデータ) (2024-06-26T05:40:10Z) - Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - Factorization of Multi-Agent Sampling-Based Motion Planning [72.42734061131569]
現代のロボティクスは、共有環境内で複数のエンボディエージェントを動作させることが多い。
標準的なサンプリングベースのアルゴリズムは、ロボットの関節空間における解の探索に使用できる。
我々は、因子化の概念をサンプリングベースアルゴリズムに統合し、既存の手法への最小限の変更しか必要としない。
本稿では, PRM* のサンプル複雑性の観点から解析的ゲインを導出し, RRG の実証結果を示す。
論文 参考訳(メタデータ) (2023-04-01T15:50:18Z) - An Efficient Approach to the Online Multi-Agent Path Finding Problem by
Using Sustainable Information [10.367412630626834]
多エージェント経路探索(MAPF)は、衝突せずにエージェントをゴールへ移動させる問題である。
本稿では,持続可能な情報を活用したオンラインMAPFの3段階的解決手法を提案する。
我々のアルゴリズムは、エージェント数の設定が異なる場合、平均1.48倍の速度でSOTAより高速である。
論文 参考訳(メタデータ) (2023-01-11T13:04:35Z) - DGSAC: Density Guided Sampling and Consensus [4.808421423598809]
Kernel Residual Densityは、inlierとoutlierの主な差別化要因である。
本稿では,2つのモデル選択アルゴリズム,最適2次プログラム,および欲求性を提案する。
平面分割, 運動分割, 点推定, 3次元点雲への平面整合, 直線, 円環整合など, 様々なタスクについて評価を行った。
論文 参考訳(メタデータ) (2020-06-03T17:42:53Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。