論文の概要: Habits of Mind: Reusing Action Sequences for Efficient Planning
- arxiv url: http://arxiv.org/abs/2306.05298v1
- Date: Thu, 8 Jun 2023 15:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 13:35:34.527655
- Title: Habits of Mind: Reusing Action Sequences for Efficient Planning
- Title(参考訳): 心の習慣:効率的な計画のための行動系列の再利用
- Authors: No\'emi \'Eltet\H{o} and Peter Dayan
- Abstract要約: 我々は、より高速かつ正確に計画を行うために、エクササイズされたアクションシーケンスが使用できる可能性についても検討する。
我々は、異なるスケールで統計的に信頼性の高い構造を発見し、活用する柔軟なベイズ作用チャンキング機構を用いる。
これにより、モンテカルロの木探索プランナに組み込むことのできる、より短く、より長いルーチンが生まれる。
- 参考スコア(独自算出の注目度): 14.315501760755609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When we exercise sequences of actions, their execution becomes more fluent
and precise. Here, we consider the possibility that exercised action sequences
can also be used to make planning faster and more accurate by focusing
expansion of the search tree on paths that have been frequently used in the
past, and by reducing deep planning problems to shallow ones via multi-step
jumps in the tree. To capture such sequences, we use a flexible Bayesian action
chunking mechanism which finds and exploits statistically reliable structure at
different scales. This gives rise to shorter or longer routines that can be
embedded into a Monte-Carlo tree search planner. We show the benefits of this
scheme using a physical construction task patterned after tangrams.
- Abstract(参考訳): アクションのシーケンスを実行すると、それらの実行はより流動的で正確になります。
そこで本研究では,これまで頻繁に用いられてきた経路に探索木の拡張を集中させることにより,より高速かつ正確な計画を立てることが可能であり,また,多段ジャンプによる浅瀬への深い計画問題を低減できる可能性を検討する。
このようなシーケンスをキャプチャするために、異なるスケールで統計的に信頼できる構造を発見し、活用する柔軟なベイズ作用チャンキング機構を用いる。
これにより、モンテカルロの木探索プランナに組み込むことのできる、より短く、より長いルーチンが生まれる。
本手法の利点は,タングラムの後にパターン化された物理構成タスクを用いて示す。
関連論文リスト
- Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。
我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。
ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文 参考訳(メタデータ) (2024-12-27T10:05:45Z) - Diffusion Meets Options: Hierarchical Generative Skill Composition for Temporally-Extended Tasks [12.239868705130178]
線形時間論理(LTL)によって規定された命令に基づいて計画の生成と更新を行うデータ駆動階層型フレームワークを提案する。
提案手法は,オフラインの非専門家データセットから階層的強化学習を用いて,時間的タスクを選択肢の連鎖に分解する。
バッチ生成における行列誘導後サンプリング手法を考案し,拡散生成オプションの速度と多様性を向上する。
論文 参考訳(メタデータ) (2024-10-03T11:10:37Z) - AlphaZeroES: Direct score maximization outperforms planning loss minimization [61.17702187957206]
実行時の計画では、シングルエージェントとマルチエージェントの両方の設定でエージェントのパフォーマンスが劇的に向上することが示されている。
実行時に計画するアプローチのファミリは、AlphaZeroとその変種で、Monte Carlo Tree Searchと、状態値とアクション確率を予測することによって検索をガイドするニューラルネットワークを使用する。
複数の環境にまたがって、エピソードスコアを直接最大化し、計画損失を最小限に抑えることを示す。
論文 参考訳(メタデータ) (2024-06-12T23:00:59Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - Skip-Plan: Procedure Planning in Instructional Videos via Condensed
Action Space Learning [85.84504287685884]
Skip-Plan(スキップ・プラン)は、訓練ビデオにおけるプロシージャ計画のための凝縮された行動空間学習法である。
アクションチェーン内の不確実なノードやエッジをスキップすることで、長いシーケンス関数と複雑なシーケンス関数を短いが信頼できるものに転送する。
我々のモデルは、凝縮された作用空間内のアクションシーケンス内で、あらゆる種類の信頼できる部分関係を探索する。
論文 参考訳(メタデータ) (2023-10-01T08:02:33Z) - Bayesian post-hoc regularization of random forests [0.0]
Random Forestsは、さまざまな機械学習タスクで広く使われている強力なアンサンブル学習アルゴリズムである。
そこで本研究では,葉ノードが根に近づいた場合の信頼性パターンを活用するために,ポストホック正則化を提案する。
各種機械学習データセットを用いて,本手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-06-06T14:15:29Z) - Online Bayesian Goal Inference for Boundedly-Rational Planning Agents [46.60073262357339]
本稿では,行動の最適シーケンスと非最適シーケンスの両方からエージェントの目標をオンラインで推測できるアーキテクチャを提案する。
我々のアーキテクチャモデルは、リプランニングによって検索と実行をインターリーブする有界な有界プランナーとして機能する。
我々は,これらのモデルのオンライン再計画仮定を利用するシーケンシャルモンテカルロアルゴリズムであるシーケンシャル逆計画探索(SIPS)を開発した。
論文 参考訳(メタデータ) (2020-06-13T01:48:10Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。