論文の概要: Robust and Efficient Planning using Adaptive Entropy Tree Search
- arxiv url: http://arxiv.org/abs/2102.06808v1
- Date: Fri, 12 Feb 2021 22:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 16:11:45.834551
- Title: Robust and Efficient Planning using Adaptive Entropy Tree Search
- Title(参考訳): 適応エントロピー木探索を用いたロバストで効率的な計画法
- Authors: Piotr Kozakowski, Miko{\l}aj Pacek, Piotr Mi{\l}o\'s
- Abstract要約: Adaptive EntropyTree Search (ANTS)アルゴリズムを紹介します。
ANTSは、温度設定に対する感度 - その間違いなく大きな欠点を緩和しながら、最大エントロピー計画の最近の成功に基づいています。
ANTSには、計画ツリーのノードで指定された範囲のアクション選択エントロピーに一致するように温度を適応させるメカニズムがあります。
- 参考スコア(独自算出の注目度): 1.7495213911983414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present the Adaptive EntropyTree Search (ANTS) algorithm.
ANTS builds on recent successes of maximum entropy planning while mitigating
its arguably major drawback - sensitivity to the temperature setting. We endow
ANTS with a mechanism, which adapts the temperature to match a given range of
action selection entropy in the nodes of the planning tree. With this
mechanism, the ANTS planner enjoys remarkable hyper-parameter robustness,
achieves high scores on the Atari benchmark, and is a capable component of a
planning-learning loop akin to AlphaZero. We believe that all these features
make ANTS a compelling choice for a general planner for complex tasks.
- Abstract(参考訳): 本稿では,Adaptive EntropyTree Search (ANTS)アルゴリズムを提案する。
ANTSは、温度設定に対する感度 - その間違いなく大きな欠点を緩和しながら、最大エントロピー計画の最近の成功に基づいています。
ANTSには、計画ツリーのノードで指定された範囲のアクション選択エントロピーに一致するように温度を適応させるメカニズムがあります。
このメカニズムにより、ANTSプランナーは目覚ましいハイパーパラメータの堅牢性を享受し、Atariベンチマークで高いスコアを獲得し、AlphaZeroに似た計画学習ループの有能なコンポーネントである。
これらの機能はすべて、複雑なタスクのための一般的なプランナーにとって魅力的な選択肢であると考えています。
関連論文リスト
- Backpropagation-Free 4D Continuous Ant-Based Neural Topology Search [62.91047688959773]
この研究は、潜在的な神経シナプス重みを表す探索空間に4次元を加えることでCANTSを拡張する。
実験の結果,BP-FreeCANTSアルゴリズムはCANTSとANTSと比較して高い競合性能を示した。
論文 参考訳(メタデータ) (2023-05-11T10:49:07Z) - Achieving mouse-level strategic evasion performance using real-time
computational planning [59.60094442546867]
計画とは、脳が想像し、予測可能な未来を成立させる特別な能力である。
我々は,動物の生態が空間計画の価値をどのように支配するかという研究に基づいて,より効率的な生物学的に着想を得た計画アルゴリズムであるTLPPOを開発した。
TLPPOを用いたリアルタイムエージェントの性能とライブマウスの性能を比較し,ロボット捕食者を避けることを課題とする。
論文 参考訳(メタデータ) (2022-11-04T18:34:36Z) - Sequence-Based Plan Feasibility Prediction for Efficient Task and Motion
Planning [44.56909875875932]
具体的かつ可動的な障害を含むタスクでは、タスク・アンド・モーション・プランニング(TAMP)アルゴリズムが実行時の大半を、解決不可能な制約満足度問題の解決に費やしている。
我々は、初期状態、目標、および候補計画に基づいて計画の実現可能性を予測する新しいトランスフォーマーベースのアーキテクチャ、PIGINetを開発した。
PIGINetは計画の効率を大幅に改善し, 障害物のあるピック・アンド・プレイスの問題を平均80%削減する。
論文 参考訳(メタデータ) (2022-11-03T04:12:04Z) - L4KDE: Learning for KinoDynamic Tree Expansion [30.191821102211446]
キノダイナミック計画のためのKinoDynamic Tree Expansion (L4KDE) 法について述べる。
L4KDEはニューラルネットワークを使用してクエリ状態間の遷移コストを予測する。
我々は,L4KDEによるシステムダイナミクスの多種多様な性能向上を実証的に実証した。
論文 参考訳(メタデータ) (2022-03-02T09:33:45Z) - Complex Event Forecasting with Prediction Suffix Trees: Extended
Technical Report [70.7321040534471]
複合イベント認識(CER)システムは、イベントのリアルタイムストリーム上のパターンを"即時"検出する能力によって、過去20年間に人気が高まっている。
このような現象が実際にCERエンジンによって検出される前に、パターンがいつ発生するかを予測する方法が不足している。
複雑なイベント予測の問題に対処しようとする形式的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T09:52:31Z) - Continuous Ant-Based Neural Topology Search [62.200941836913586]
この研究は、アリコロニー最適化に基づく、自然に着想を得たニューラルアーキテクチャサーチ(NAS)アルゴリズムを導入している。
連続アントベースのニューラルトポロジーサーチ(CANTS)は、アリが現実世界でどのように動くかに強く影響を受けている。
論文 参考訳(メタデータ) (2020-11-21T17:49:44Z) - Selective Cascade of Residual ExtraTrees [3.6575928994425735]
Selective Cascade of Residual ExtraTrees (SCORE) という,木に基づく新しいアンサンブル手法を提案する。
SCOREは表現学習からインスピレーションを受け、可変選択特徴を持つ正規化回帰を取り入れ、予測の改善と一般化誤差の低減にブーストを利用する。
コンピュータ実験により、SCOREは、ExtraTrees、ランダムフォレスト、グラデーションブースティングマシン、ニューラルネットワークに対する予測において、同等または優れた性能を提供することが示された。
論文 参考訳(メタデータ) (2020-09-29T16:31:37Z) - Maximum Mutation Reinforcement Learning for Scalable Control [25.935468948833073]
強化学習(Reinforcement Learning, RL)は、大規模状態空間に対するデータ効率と最適制御を、スケーラブルな性能で実証している。
本稿では,スケーラブルなRLアルゴリズムであるEvolution-based Soft Actor-Critic (ESAC)を提案する。
論文 参考訳(メタデータ) (2020-07-24T16:29:19Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。