論文の概要: Increasing the Value of Information During Planning in Uncertain Environments
- arxiv url: http://arxiv.org/abs/2409.13754v1
- Date: Sat, 14 Sep 2024 22:04:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:24:17.870812
- Title: Increasing the Value of Information During Planning in Uncertain Environments
- Title(参考訳): 不確実な環境における計画中の情報の価値向上
- Authors: Gaurab Pokharel,
- Abstract要約: 我々は,情報収集行動の価値をよりよく反映して,最先端のオンライン計画を改善する新しいアルゴリズムを開発した。
結果,新しいアルゴリズムはPOMCPよりも高い性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior studies have demonstrated that for many real-world problems, POMDPs can be solved through online algorithms both quickly and with near optimality. However, on an important set of problems where there is a large time delay between when the agent can gather information and when it needs to use that information, these solutions fail to adequately consider the value of information. As a result, information gathering actions, even when they are critical in the optimal policy, will be ignored by existing solutions, leading to sub-optimal decisions by the agent. In this research, we develop a novel solution that rectifies this problem by introducing a new algorithm that improves upon state-of-the-art online planning by better reflecting on the value of actions that gather information. We do this by adding Entropy to the UCB1 heuristic in the POMCP algorithm. We test this solution on the hallway problem. Results indicate that our new algorithm performs significantly better than POMCP.
- Abstract(参考訳): 以前の研究では、多くの実世界の問題に対して、POMDPはオンラインアルゴリズムによって高速かつほぼ最適に解けることが示されている。
しかし、エージェントが情報を収集できる時と、その情報を使う必要がある時との間に大きな時間的遅延がある重要な問題に対して、これらのソリューションは情報の価値を適切に考慮することができない。
その結果、情報収集行動は、たとえ最適な政策に批判的であったとしても、既存のソリューションによって無視され、エージェントによる準最適決定につながる。
本研究では,情報を収集する行動の価値をよりよく反映して,最先端のオンライン計画を改善する新しいアルゴリズムを導入することにより,この問題を是正する新しいソリューションを開発する。
我々は, POMCPアルゴリズムにおいて, UCB1ヒューリスティックにエントロピーを加えることで実現している。
私たちはこの解決策を廊下の問題でテストする。
結果,新しいアルゴリズムはPOMCPよりも高い性能を示した。
関連論文リスト
- Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement
Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。
本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。
また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文 参考訳(メタデータ) (2023-12-01T01:30:49Z) - An Improved Artificial Fish Swarm Algorithm for Solving the Problem of
Investigation Path Planning [8.725702964289479]
多集団差分進化(DE-CAFSA)に基づくカオス人工魚群アルゴリズムを提案する。
適応的な視野とステップサイズ調整を導入し、ランダムな動作を2オプト操作に置き換え、カオス理論と準最適解を導入する。
実験結果から、DECAFSAは、異なる大きさの様々な公開データセット上で、他のアルゴリズムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-20T09:35:51Z) - The Update-Equivalence Framework for Decision-Time Planning [78.44953498421854]
本稿では,サブゲームの解決ではなく,更新等価性に基づく意思決定時計画のための代替フレームワークを提案する。
ミラー降下に基づく完全協調型ゲームに対する有効音声探索アルゴリズムと、磁気ミラー降下に基づく対戦型ゲームに対する探索アルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-04-25T20:28:55Z) - An Efficient Approach to the Online Multi-Agent Path Finding Problem by
Using Sustainable Information [10.367412630626834]
多エージェント経路探索(MAPF)は、衝突せずにエージェントをゴールへ移動させる問題である。
本稿では,持続可能な情報を活用したオンラインMAPFの3段階的解決手法を提案する。
我々のアルゴリズムは、エージェント数の設定が異なる場合、平均1.48倍の速度でSOTAより高速である。
論文 参考訳(メタデータ) (2023-01-11T13:04:35Z) - Sequential Bayesian Optimization for Adaptive Informative Path Planning
with Multimodal Sensing [34.86734745942814]
本稿では,複数のセンサを備えたエージェントの問題点について考察する。
エージェントの目標は、未知の、部分的に観測可能な環境において、環境を探索し、そのリソース制約の対象となる情報を集めることである。
我々は,AIPPMS問題を,ガウス過程の信念を用いたマルコフ決定過程として定式化し,オンラインプランニングによる逐次ベイズ最適化アプローチを用いて解決する。
論文 参考訳(メタデータ) (2022-09-16T00:50:36Z) - Evolutionary Optimization for Proactive and Dynamic Computing Resource
Allocation in Open Radio Access Network [4.9711284100869815]
Open Radio Access Network (O-RAN) におけるコンピュータリソースの自動割り当てを実現するためのインテリジェントな技術が求められている
このリソース割り当て問題を解決するための既存の問題定式化は、リソースのキャパシティユーティリティを不適切な方法で定義しているため不適切である。
問題をよりよく記述した新しい定式化が提案されている。
論文 参考訳(メタデータ) (2022-01-12T08:52:04Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - POMP: Pomcp-based Online Motion Planning for active visual search in
indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。
提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。
提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文 参考訳(メタデータ) (2020-09-17T08:23:50Z) - Learning What to Defer for Maximum Independent Sets [84.00112106334655]
本稿では,各段階における解の要素的決定を学習することにより,エージェントが適応的に段階数を縮小あるいは拡張する,新たなDRL方式を提案する。
提案手法を最大独立集合(MIS)問題に適用し、現状のDRL方式よりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2020-06-17T02:19:31Z) - sKPNSGA-II: Knee point based MOEA with self-adaptive angle for Mission
Planning Problems [2.191505742658975]
いくつかの問題には、多くの非支配的な解をもたらす多くの目的がある。
本稿では,最も重要な解を得るために設計された新しいアルゴリズムを提案する。
このアルゴリズムは無人航空機(UAV)ミッション計画問題における実世界の応用に応用されている。
論文 参考訳(メタデータ) (2020-02-20T17:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。