論文の概要: A dynamic programming algorithm for informative measurements and
near-optimal path-planning
- arxiv url: http://arxiv.org/abs/2109.11808v1
- Date: Fri, 24 Sep 2021 08:40:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 23:47:12.120470
- Title: A dynamic programming algorithm for informative measurements and
near-optimal path-planning
- Title(参考訳): 情報量測定と準最適経路計画のための動的プログラミングアルゴリズム
- Authors: Peter N. Loxley and Ka Wai Cheung
- Abstract要約: 情報的測定は、未知の状態に関する情報を得る最も効率的な方法である。
情報量列を返す汎用動的プログラミングアルゴリズムの第一原理を導出する。
このアルゴリズムは、自律エージェントやロボットが次に測定すべき場所を決定するために使用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An informative measurement is the most efficient way to gain information
about an unknown state. We give a first-principles derivation of a
general-purpose dynamic programming algorithm that returns a sequence of
informative measurements by sequentially maximizing the entropy of possible
measurement outcomes. This algorithm can be used by an autonomous agent or
robot to decide where best to measure next, planning a path corresponding to an
optimal sequence of informative measurements. This algorithm is applicable to
states and controls that are continuous or discrete, and agent dynamics that is
either stochastic or deterministic; including Markov decision processes. Recent
results from approximate dynamic programming and reinforcement learning,
including on-line approximations such as rollout and Monte Carlo tree search,
allow an agent or robot to solve the measurement task in real-time. The
resulting near-optimal solutions include non-myopic paths and measurement
sequences that can generally outperform, sometimes substantially, commonly-used
greedy heuristics such as maximizing the entropy of each measurement outcome.
This is demonstrated for a global search problem, where on-line planning with
an extended local search is found to reduce the number of measurements in the
search by half.
- Abstract(参考訳): 情報測定は、未知の状態に関する情報を得る最も効率的な方法である。
本稿では,測定結果のエントロピーを逐次最大化することにより,情報量列を返す汎用動的プログラミングアルゴリズムの第一原理を導出する。
このアルゴリズムは、自律エージェントやロボットが次に計測する最適な場所を決定するために使用することができ、最適な情報測定シーケンスに対応する経路を計画する。
このアルゴリズムは、連続的または離散的な状態や制御、マルコフ決定プロセスを含む確率的または決定論的エージェントダイナミクスに適用できる。
ロールアウトやモンテカルロ木探索などのオンライン近似を含む,近似動的プログラミングと強化学習による最近の成果は,エージェントやロボットがリアルタイムで測定タスクを解くことを可能にする。
その結果得られるオプティカルに近い解は、非オプティカル経路と測定結果のエントロピーを最大化するような、概ね、実質的に広く使われる欲欲のヒューリスティックよりも優れる測定シーケンスを含む。
これはグローバルな検索問題として示され、拡張ローカル検索によるオンラインプランニングにより、検索における測定回数を半減させる。
関連論文リスト
- Reinforced Disentanglers on Random Unitary Circuits [0.10923877073891444]
ブロックウォールパターンで配置された2ビットゲートのランダムクリフォード回路上で,効率的なアンタングルを探索する。
遠心分離器は連続する絡み合う層の間に挿入される射影測定のセットとして定義される。
論文 参考訳(メタデータ) (2024-11-14T19:51:26Z) - MEXGEN: An Effective and Efficient Information Gain Approximation for Information Gathering Path Planning [3.195234044113248]
自律ロボットの計画アルゴリズムは、不確実性の下でのシーケンシャルな意思決定問題を解決する必要がある。
我々は,不確実な信念状態からセンサ計測を予測する難しい問題に対して,計算的に効率的かつ効果的に近似する手法を開発した。
マルチロータ型空中ロボットを用いた広範囲なシミュレーション・フィールド実験により, 電波源追尾と位置決め問題の性能向上を実証した。
論文 参考訳(メタデータ) (2024-05-04T08:09:16Z) - Machine-learning optimized measurements of chaotic dynamical systems via the information bottleneck [4.189643331553922]
完璧な測定は、システムの進化によって生成された全ての情報を最小限の冗長性でキャプチャする。
最適な測定方法を見つけることは困難であり、一般的には、実行された少数のケースにおいて、ダイナミクスの詳細な知識を必要とする。
我々は、軌道データから効率的に情報を抽出する計測プロセスの最適化に機械学習を用いる。
論文 参考訳(メタデータ) (2023-11-08T18:56:29Z) - On efficient computation in active inference [1.1470070927586016]
計算量を大幅に減らした有限時間地平線に対する新しい計画アルゴリズムを提案する。
また、新規かつ既存のアクティブな推論計画スキームに対して適切な目標分布を設定するプロセスを簡単にする。
論文 参考訳(メタデータ) (2023-07-02T07:38:56Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Robustification of Online Graph Exploration Methods [59.50307752165016]
我々は、古典的で有名なオンライングラフ探索問題の学習強化版について研究する。
本稿では,予測をよく知られたNearest Neighbor(NN)アルゴリズムに自然に統合するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-10T10:02:31Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Anomaly Detection via Controlled Sensing and Deep Active Inference [43.07302992747749]
本稿では,与えられたプロセス群の中で異常なプロセスを見つけることを目的とした異常検出問題に対処する。
我々は,各瞬間にどの過程を探索して異常を検出するかを決定するシーケンシャルな選択アルゴリズムを開発した。
本アルゴリズムは,自由エネルギーの概念を最大化するために逐次的決定を行う一般的なフレームワークであるアクティブ推論に基づいている。
論文 参考訳(メタデータ) (2021-05-12T17:54:02Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - Active Model Estimation in Markov Decision Processes [108.46146218973189]
マルコフ決定過程(MDP)をモデル化した環境の正確なモデル学習のための効率的な探索の課題について検討する。
マルコフに基づくアルゴリズムは,本アルゴリズムと極大エントロピーアルゴリズムの両方を小サンプル方式で上回っていることを示す。
論文 参考訳(メタデータ) (2020-03-06T16:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。