論文の概要: Heuristics for Partially Observable Stochastic Contingent Planning
- arxiv url: http://arxiv.org/abs/2410.05870v1
- Date: Tue, 8 Oct 2024 09:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 12:30:00.606045
- Title: Heuristics for Partially Observable Stochastic Contingent Planning
- Title(参考訳): 部分観測可能な確率成分計画のためのヒューリスティックス
- Authors: Guy Shani,
- Abstract要約: 部分的に観測可能な領域でタスクを遂行することは人工知能の重要な問題であり、しばしばゴールベースのPOMDPとして定式化される。
ゴールベースのPOMDPは、最初の信念からゴールへの前方軌道を走らせるRTDP-BELアルゴリズムを用いて解決できる。
- 参考スコア(独自算出の注目度): 6.185979230964809
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Acting to complete tasks in stochastic partially observable domains is an important problem in artificial intelligence, and is often formulated as a goal-based POMDP. Goal-based POMDPs can be solved using the RTDP-BEL algorithm, that operates by running forward trajectories from the initial belief to the goal. These trajectories can be guided by a heuristic, and more accurate heuristics can result in significantly faster convergence. In this paper, we develop a heuristic function that leverages the structured representation of domain models. We compute, in a relaxed space, a plan to achieve the goal, while taking into account the value of information, as well as the stochastic effects. We provide experiments showing that while our heuristic is slower to compute, it requires an order of magnitude less trajectories before convergence. Overall, it thus speeds up RTDP-BEL, particularly in problems where significant information gathering is needed.
- Abstract(参考訳): 確率的部分観測可能な領域でタスクを完了させることは人工知能の重要な問題であり、しばしばゴールベースのPOMDPとして定式化される。
ゴールベースのPOMDPは、最初の信念からゴールへの前方軌道を走らせるRTDP-BELアルゴリズムを用いて解決できる。
これらの軌道はヒューリスティックによって導かれることができ、より正確なヒューリスティックははるかに高速な収束をもたらす。
本稿では,ドメインモデルの構造的表現を利用するヒューリスティック関数を開発する。
我々は、情報の価値と確率的効果を考慮しつつ、リラックスした空間で目標を達成する計画を計算する。
我々のヒューリスティックは計算が遅いが、収束前には桁違いのトラジェクトリを必要とすることを示す実験を行っている。
これによりRTDP-BELを高速化し、特に重要な情報収集が必要な問題に対処する。
関連論文リスト
- Faster Diffusion Action Segmentation [9.868244939496678]
時間的行動分類(TAS)はビデオ解析において不可欠な課題であり、連続したフレームを別のアクションセグメントに分割し分類することを目的としている。
拡散モデルの最近の進歩は、安定したトレーニングプロセスと高品質な生成能力により、TASタスクにおいて大きな成功を収めている。
本稿では,効率的かつ高性能なTASアルゴリズムであるEffiDiffActを提案する。
論文 参考訳(メタデータ) (2024-08-04T13:23:18Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Short-Term Load Forecasting Using A Particle-Swarm Optimized Multi-Head
Attention-Augmented CNN-LSTM Network [0.0]
電力系統の効率的な運用と計画において、短期負荷予測が最重要となる。
ディープラーニングの最近の進歩は、この問題に対処する上で有望であることを示している。
これらの障害を克服する新しいソリューションを提案します。
論文 参考訳(メタデータ) (2023-09-07T13:06:52Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Graph Neural Processes for Spatio-Temporal Extrapolation [36.01312116818714]
グラフ内の周囲のコンテキストから対象地点のデータを生成する補間時間プロセスのタスクについて検討する。
既存の手法では、ニューラルネットワークのような学習に精通したモデルや、ガウスのような統計的アプローチが使用されている。
本稿では,これらの機能を同時に制御するニューラル潜在変数モデルであるスポースグラフニューラル・プロセス(STGNP)を提案する。
論文 参考訳(メタデータ) (2023-05-30T03:55:37Z) - Uncovering the Missing Pattern: Unified Framework Towards Trajectory
Imputation and Prediction [60.60223171143206]
軌道予測は、観測されたシーケンスから実体運動や人間の行動を理解する上で重要な作業である。
現在の方法では、観測されたシーケンスが完了したと仮定し、欠落した値の可能性を無視する。
本稿では,グラフに基づく条件変動リカレントニューラルネットワーク (GC-VRNN) の統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T14:27:27Z) - Spatio-Temporal Point Process for Multiple Object Tracking [30.041104276095624]
多重オブジェクト追跡(MOT)は、連続するフレーム間の検出対象の関係をモデル化し、それらを異なる軌道にマージすることに焦点を当てている。
本稿では,物体を軌道に関連付ける前に,ノイズを効果的に予測し,マスクアウトし,検出結果を混乱させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-05T18:14:08Z) - MARS: Meta-Learning as Score Matching in the Function Space [79.73213540203389]
本稿では,一連の関連するデータセットから帰納バイアスを抽出する手法を提案する。
機能的ベイズニューラルネットワーク推論を用いて、前者をプロセスとみなし、関数空間で推論を行う。
本手法は,データ生成プロセスのスコア関数をメタラーニングすることにより,複雑な事前知識をシームレスに獲得し,表現することができる。
論文 参考訳(メタデータ) (2022-10-24T15:14:26Z) - FaDIn: Fast Discretized Inference for Hawkes Processes with General
Parametric Kernels [82.53569355337586]
この研究は、有限なサポートを持つ一般パラメトリックカーネルを用いた時間点プロセス推論の効率的な解を提供する。
脳磁図(MEG)により記録された脳信号からの刺激誘発パターンの発生をモデル化し,その有効性を評価する。
その結果,提案手法により,最先端技術よりもパターン遅延の推定精度が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-10T12:35:02Z) - Multi-Task Learning on Networks [0.0]
マルチタスク学習コンテキストで発生する多目的最適化問題は、特定の特徴を持ち、アドホックな方法を必要とする。
この論文では、入力空間の解は、関数評価に含まれる知識をカプセル化した確率分布として表現される。
確率分布のこの空間では、ワッサーシュタイン距離によって与えられる計量が与えられ、モデルが目的関数に直接依存しないような新しいアルゴリズムMOEA/WSTを設計することができる。
論文 参考訳(メタデータ) (2021-12-07T09:13:10Z) - Mitigating Performance Saturation in Neural Marked Point Processes:
Architectures and Loss Functions [50.674773358075015]
本稿では,グラフ畳み込み層のみを利用するGCHPという単純なグラフベースのネットワーク構造を提案する。
我々は,GCHPがトレーニング時間を大幅に短縮し,時間間確率仮定による確率比損失がモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-07-07T16:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。