論文の概要: Robust and Efficient Planning using Adaptive Entropy Tree Search
- arxiv url: http://arxiv.org/abs/2102.06808v1
- Date: Fri, 12 Feb 2021 22:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 16:11:45.834551
- Title: Robust and Efficient Planning using Adaptive Entropy Tree Search
- Title(参考訳): 適応エントロピー木探索を用いたロバストで効率的な計画法
- Authors: Piotr Kozakowski, Miko{\l}aj Pacek, Piotr Mi{\l}o\'s
- Abstract要約: Adaptive EntropyTree Search (ANTS)アルゴリズムを紹介します。
ANTSは、温度設定に対する感度 - その間違いなく大きな欠点を緩和しながら、最大エントロピー計画の最近の成功に基づいています。
ANTSには、計画ツリーのノードで指定された範囲のアクション選択エントロピーに一致するように温度を適応させるメカニズムがあります。
- 参考スコア(独自算出の注目度): 1.7495213911983414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present the Adaptive EntropyTree Search (ANTS) algorithm.
ANTS builds on recent successes of maximum entropy planning while mitigating
its arguably major drawback - sensitivity to the temperature setting. We endow
ANTS with a mechanism, which adapts the temperature to match a given range of
action selection entropy in the nodes of the planning tree. With this
mechanism, the ANTS planner enjoys remarkable hyper-parameter robustness,
achieves high scores on the Atari benchmark, and is a capable component of a
planning-learning loop akin to AlphaZero. We believe that all these features
make ANTS a compelling choice for a general planner for complex tasks.
- Abstract(参考訳): 本稿では,Adaptive EntropyTree Search (ANTS)アルゴリズムを提案する。
ANTSは、温度設定に対する感度 - その間違いなく大きな欠点を緩和しながら、最大エントロピー計画の最近の成功に基づいています。
ANTSには、計画ツリーのノードで指定された範囲のアクション選択エントロピーに一致するように温度を適応させるメカニズムがあります。
このメカニズムにより、ANTSプランナーは目覚ましいハイパーパラメータの堅牢性を享受し、Atariベンチマークで高いスコアを獲得し、AlphaZeroに似た計画学習ループの有能なコンポーネントである。
これらの機能はすべて、複雑なタスクのための一般的なプランナーにとって魅力的な選択肢であると考えています。
関連論文リスト
- Tree-Planner: Efficient Close-loop Task Planning with Large Language
Models [65.16099990195016]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - Habits of Mind: Reusing Action Sequences for Efficient Planning [14.315501760755609]
我々は、より高速かつ正確に計画を行うために、エクササイズされたアクションシーケンスが使用できる可能性についても検討する。
我々は、異なるスケールで統計的に信頼性の高い構造を発見し、活用する柔軟なベイズ作用チャンキング機構を用いる。
これにより、モンテカルロの木探索プランナに組み込むことのできる、より短く、より長いルーチンが生まれる。
論文 参考訳(メタデータ) (2023-06-08T15:42:56Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought [95.37585041654535]
Embodied AIは、ロボットが物理的な環境で長時間のタスクを遂行するためのアクションシーケンスを計画し、実行することができる。
本稿では,EmbodiedGPTを紹介する。EmbodiedGPTは,エンボディドAIのためのエンドツーエンドのマルチモーダル基盤モデルである。
実験は、実施計画、実施制御、視覚的キャプション、視覚的質問応答など、実施されたタスクに対するEmbodiedGPTの有効性を示す。
論文 参考訳(メタデータ) (2023-05-24T11:04:30Z) - Achieving mouse-level strategic evasion performance using real-time
computational planning [59.60094442546867]
計画とは、脳が想像し、予測可能な未来を成立させる特別な能力である。
我々は,動物の生態が空間計画の価値をどのように支配するかという研究に基づいて,より効率的な生物学的に着想を得た計画アルゴリズムであるTLPPOを開発した。
TLPPOを用いたリアルタイムエージェントの性能とライブマウスの性能を比較し,ロボット捕食者を避けることを課題とする。
論文 参考訳(メタデータ) (2022-11-04T18:34:36Z) - L4KDE: Learning for KinoDynamic Tree Expansion [28.63535068379981]
キノダイナミック計画のためのKinoDynamic Tree Expansion (L4KDE) 法について述べる。
L4KDEはニューラルネットワークを使用してクエリ状態間の遷移コストを予測する。
我々は,L4KDEによるシステムダイナミクスの多種多様な性能向上を実証的に実証した。
論文 参考訳(メタデータ) (2022-03-02T09:33:45Z) - Continuous Ant-Based Neural Topology Search [62.200941836913586]
この研究は、アリコロニー最適化に基づく、自然に着想を得たニューラルアーキテクチャサーチ(NAS)アルゴリズムを導入している。
連続アントベースのニューラルトポロジーサーチ(CANTS)は、アリが現実世界でどのように動くかに強く影響を受けている。
論文 参考訳(メタデータ) (2020-11-21T17:49:44Z) - Selective Cascade of Residual ExtraTrees [3.6575928994425735]
Selective Cascade of Residual ExtraTrees (SCORE) という,木に基づく新しいアンサンブル手法を提案する。
SCOREは表現学習からインスピレーションを受け、可変選択特徴を持つ正規化回帰を取り入れ、予測の改善と一般化誤差の低減にブーストを利用する。
コンピュータ実験により、SCOREは、ExtraTrees、ランダムフォレスト、グラデーションブースティングマシン、ニューラルネットワークに対する予測において、同等または優れた性能を提供することが示された。
論文 参考訳(メタデータ) (2020-09-29T16:31:37Z) - Maximum Mutation Reinforcement Learning for Scalable Control [25.935468948833073]
強化学習(Reinforcement Learning, RL)は、大規模状態空間に対するデータ効率と最適制御を、スケーラブルな性能で実証している。
本稿では,スケーラブルなRLアルゴリズムであるEvolution-based Soft Actor-Critic (ESAC)を提案する。
論文 参考訳(メタデータ) (2020-07-24T16:29:19Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。