論文の概要: Hierarchical Width-Based Planning and Learning
- arxiv url: http://arxiv.org/abs/2101.06177v2
- Date: Tue, 23 Mar 2021 15:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 11:20:52.001976
- Title: Hierarchical Width-Based Planning and Learning
- Title(参考訳): 階層的幅型計画と学習
- Authors: Miquel Junyent, Vicen\c{c} G\'omez, Anders Jonsson
- Abstract要約: 幅に基づく探索手法は、幅広いテストベッドで最先端の性能を実証している。
2つの抽象レベルを計画する階層型アルゴリズムを提案する。
学習方針と学習価値関数を組み合わせることで,提案する階層iwが,atariゲームにおける現在のフラットiwベースのプランナーよりも少ない報酬で勝ることを示す。
- 参考スコア(独自算出の注目度): 8.776765645845012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Width-based search methods have demonstrated state-of-the-art performance in
a wide range of testbeds, from classical planning problems to image-based
simulators such as Atari games. These methods scale independently of the size
of the state-space, but exponentially in the problem width. In practice,
running the algorithm with a width larger than 1 is computationally
intractable, prohibiting IW from solving higher width problems. In this paper,
we present a hierarchical algorithm that plans at two levels of abstraction. A
high-level planner uses abstract features that are incrementally discovered
from low-level pruning decisions. We illustrate this algorithm in classical
planning PDDL domains as well as in pixel-based simulator domains. In classical
planning, we show how IW(1) at two levels of abstraction can solve problems of
width 2. For pixel-based domains, we show how in combination with a learned
policy and a learned value function, the proposed hierarchical IW can
outperform current flat IW-based planners in Atari games with sparse rewards.
- Abstract(参考訳): 幅ベースの検索手法は、古典的な計画問題からatariゲームのようなイメージベースのシミュレータまで、幅広いテストベッドで最先端のパフォーマンスを示している。
これらの方法は状態空間の大きさとは独立にスケールするが、問題幅は指数関数的に大きくなる。
実際には、1より大きい幅でアルゴリズムを実行するのは計算が難しいため、iwは高い幅の問題を解決することができない。
本稿では,2段階の抽象化を計画する階層型アルゴリズムを提案する。
ハイレベルプランナーは、低レベルのプルーニング決定から徐々に発見される抽象的な機能を使用する。
我々は,このアルゴリズムを従来のプランニングpddlドメインとピクセルベースのシミュレータドメインで示す。
古典的な計画では、2つの抽象レベルでiw(1)がどのように幅2の問題を解決するかを示す。
画素ベースのドメインでは、学習ポリシーと学習価値関数を組み合わせることで、提案した階層型IWが、アタリゲームにおける現在のフラットIWベースのプランナーを、少ない報酬で上回ることを示す。
関連論文リスト
- N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - Look at the Neighbor: Distortion-aware Unsupervised Domain Adaptation
for Panoramic Semantic Segmentation [5.352137021024213]
この目的は、等方射影(ERP)の均一分布画素のスタイル不均一性と歪み問題に起因する領域ギャップに対処することである。
パノラマ的セマンティックセグメンテーションの歪み問題に効果的に対処できる新しいUDAフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-10T10:47:12Z) - Representation Learning for General-sum Low-rank Markov Games [63.119870889883224]
非線形関数近似を用いたマルチエージェント汎用マルコフゲームについて検討する。
遷移行列が未知の非線形表現の上に隠れた低ランク構造を持つ低ランクマルコフゲームに焦点を当てる。
論文 参考訳(メタデータ) (2022-10-30T22:58:22Z) - Pruning-as-Search: Efficient Neural Architecture Search via Channel
Pruning and Structural Reparameterization [50.50023451369742]
プルーニング・アズ・サーチ(Pruning-as-Search、PaS)は、必要なサブネットワークを自動的に効率的に検索するエンドツーエンドのプルーニング手法である。
提案したアーキテクチャは,ImageNet-1000分類タスクにおいて,1.0%$ Top-1精度で先行技術より優れていた。
論文 参考訳(メタデータ) (2022-06-02T17:58:54Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - Classical Planning in Deep Latent Space [33.06766829037679]
Latplanは、ディープラーニングと古典的計画を組み合わせた教師なしアーキテクチャである。
ラトプランは、象徴的な潜在空間における目標状態への計画を見つけ、視覚化された計画実行を返します。
論文 参考訳(メタデータ) (2021-06-30T21:31:21Z) - Width-based Lookaheads with Learnt Base Policies and Heuristics Over the
Atari-2600 Benchmark [4.559353193715442]
RIW$_C$+CPV は $pi$-IW, $pi$-IW(1)+ および $pi$-HIW(n, 1) より優れていることを示す。
また,Atari-2600のゲーム群を,その定義特性に応じて分類する。
論文 参考訳(メタデータ) (2021-06-23T04:27:55Z) - Planning for Novelty: Width-Based Algorithms for Common Problems in
Control, Planning and Reinforcement Learning [6.053629733936546]
幅に基づくアルゴリズムは、状態の新規性の一般的な定義を通じて解を探索する。
これらのアルゴリズムは、古典的な計画において最先端のパフォーマンスをもたらすことが示されている。
論文 参考訳(メタデータ) (2021-06-09T07:46:19Z) - Waypoint Planning Networks [66.72790309889432]
本稿では,ローカルカーネル(A*のような古典的アルゴリズム)と学習アルゴリズムを用いたグローバルカーネルを用いたLSTMに基づくハイブリッドアルゴリズムを提案する。
我々は、WPNとA*を比較し、動き計画ネットワーク(MPNet)やバリューネットワーク(VIN)を含む関連する作業と比較する。
WPN の探索空間は A* よりもかなり小さいが、ほぼ最適な結果が得られることが示されている。
論文 参考訳(メタデータ) (2021-05-01T18:02:01Z) - General Policies, Serializations, and Planning Width [22.112881443209726]
有界幅は、ドメインエンコーディングにおいて明示的あるいは暗黙的に表現される特徴の観点から、最適の一般ポリシーを許容する計画領域の特性であることを示す。
この研究はまた、ポリシースケッチの形でドメインのシリアライズを指定するための新しいシンプルで有意義で表現力のある言語にもつながります。
論文 参考訳(メタデータ) (2020-12-15T01:33:59Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。