論文の概要: Robust and Efficient Planning using Adaptive Entropy Tree Search
- arxiv url: http://arxiv.org/abs/2102.06808v1
- Date: Fri, 12 Feb 2021 22:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 16:11:45.834551
- Title: Robust and Efficient Planning using Adaptive Entropy Tree Search
- Title(参考訳): 適応エントロピー木探索を用いたロバストで効率的な計画法
- Authors: Piotr Kozakowski, Miko{\l}aj Pacek, Piotr Mi{\l}o\'s
- Abstract要約: Adaptive EntropyTree Search (ANTS)アルゴリズムを紹介します。
ANTSは、温度設定に対する感度 - その間違いなく大きな欠点を緩和しながら、最大エントロピー計画の最近の成功に基づいています。
ANTSには、計画ツリーのノードで指定された範囲のアクション選択エントロピーに一致するように温度を適応させるメカニズムがあります。
- 参考スコア(独自算出の注目度): 1.7495213911983414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present the Adaptive EntropyTree Search (ANTS) algorithm.
ANTS builds on recent successes of maximum entropy planning while mitigating
its arguably major drawback - sensitivity to the temperature setting. We endow
ANTS with a mechanism, which adapts the temperature to match a given range of
action selection entropy in the nodes of the planning tree. With this
mechanism, the ANTS planner enjoys remarkable hyper-parameter robustness,
achieves high scores on the Atari benchmark, and is a capable component of a
planning-learning loop akin to AlphaZero. We believe that all these features
make ANTS a compelling choice for a general planner for complex tasks.
- Abstract(参考訳): 本稿では,Adaptive EntropyTree Search (ANTS)アルゴリズムを提案する。
ANTSは、温度設定に対する感度 - その間違いなく大きな欠点を緩和しながら、最大エントロピー計画の最近の成功に基づいています。
ANTSには、計画ツリーのノードで指定された範囲のアクション選択エントロピーに一致するように温度を適応させるメカニズムがあります。
このメカニズムにより、ANTSプランナーは目覚ましいハイパーパラメータの堅牢性を享受し、Atariベンチマークで高いスコアを獲得し、AlphaZeroに似た計画学習ループの有能なコンポーネントである。
これらの機能はすべて、複雑なタスクのための一般的なプランナーにとって魅力的な選択肢であると考えています。
関連論文リスト
- Planning with Adaptive World Models for Autonomous Driving [50.4439896514353]
運動プランナー(MP)は複雑な都市環境における安全なナビゲーションに不可欠である。
最近リリースされたMPベンチマークであるnuPlanは、クローズドループシミュレーションロジックで現実世界の駆動ログを拡張することで、この制限に対処している。
本稿では,モデル予測制御(MPC)ベースのプランナであるAdaptiveDriverを提案する。
論文 参考訳(メタデータ) (2024-06-15T18:53:45Z) - AlphaZeroES: Direct score maximization outperforms planning loss minimization [61.17702187957206]
実行時の計画では、シングルエージェントとマルチエージェントの両方の設定でエージェントのパフォーマンスが劇的に向上することが示されている。
実行時に計画するアプローチのファミリは、AlphaZeroとその変種で、Monte Carlo Tree Searchと、状態値とアクション確率を予測することによって検索をガイドするニューラルネットワークを使用する。
複数の環境にまたがって、エピソードスコアを直接最大化し、計画損失を最小限に抑えることを示す。
論文 参考訳(メタデータ) (2024-06-12T23:00:59Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - Habits of Mind: Reusing Action Sequences for Efficient Planning [14.315501760755609]
我々は、より高速かつ正確に計画を行うために、エクササイズされたアクションシーケンスが使用できる可能性についても検討する。
我々は、異なるスケールで統計的に信頼性の高い構造を発見し、活用する柔軟なベイズ作用チャンキング機構を用いる。
これにより、モンテカルロの木探索プランナに組み込むことのできる、より短く、より長いルーチンが生まれる。
論文 参考訳(メタデータ) (2023-06-08T15:42:56Z) - EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (2023-05-24T11:04:30Z) - Achieving mouse-level strategic evasion performance using real-time
computational planning [59.60094442546867]
計画とは、脳が想像し、予測可能な未来を成立させる特別な能力である。
我々は,動物の生態が空間計画の価値をどのように支配するかという研究に基づいて,より効率的な生物学的に着想を得た計画アルゴリズムであるTLPPOを開発した。
TLPPOを用いたリアルタイムエージェントの性能とライブマウスの性能を比較し,ロボット捕食者を避けることを課題とする。
論文 参考訳(メタデータ) (2022-11-04T18:34:36Z) - L4KDE: Learning for KinoDynamic Tree Expansion [28.63535068379981]
キノダイナミック計画のためのKinoDynamic Tree Expansion (L4KDE) 法について述べる。
L4KDEはニューラルネットワークを使用してクエリ状態間の遷移コストを予測する。
我々は,L4KDEによるシステムダイナミクスの多種多様な性能向上を実証的に実証した。
論文 参考訳(メタデータ) (2022-03-02T09:33:45Z) - Continuous Ant-Based Neural Topology Search [62.200941836913586]
この研究は、アリコロニー最適化に基づく、自然に着想を得たニューラルアーキテクチャサーチ(NAS)アルゴリズムを導入している。
連続アントベースのニューラルトポロジーサーチ(CANTS)は、アリが現実世界でどのように動くかに強く影響を受けている。
論文 参考訳(メタデータ) (2020-11-21T17:49:44Z) - Selective Cascade of Residual ExtraTrees [3.6575928994425735]
Selective Cascade of Residual ExtraTrees (SCORE) という,木に基づく新しいアンサンブル手法を提案する。
SCOREは表現学習からインスピレーションを受け、可変選択特徴を持つ正規化回帰を取り入れ、予測の改善と一般化誤差の低減にブーストを利用する。
コンピュータ実験により、SCOREは、ExtraTrees、ランダムフォレスト、グラデーションブースティングマシン、ニューラルネットワークに対する予測において、同等または優れた性能を提供することが示された。
論文 参考訳(メタデータ) (2020-09-29T16:31:37Z) - Maximum Mutation Reinforcement Learning for Scalable Control [25.935468948833073]
強化学習(Reinforcement Learning, RL)は、大規模状態空間に対するデータ効率と最適制御を、スケーラブルな性能で実証している。
本稿では,スケーラブルなRLアルゴリズムであるEvolution-based Soft Actor-Critic (ESAC)を提案する。
論文 参考訳(メタデータ) (2020-07-24T16:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。