論文の概要: Toward Discovering Options that Achieve Faster Planning
- arxiv url: http://arxiv.org/abs/2205.12515v1
- Date: Wed, 25 May 2022 06:10:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:41:11.664170
- Title: Toward Discovering Options that Achieve Faster Planning
- Title(参考訳): 計画の高速化をめざして
- Authors: Yi Wan, Richard S. Sutton
- Abstract要約: 本稿では,計画におけるオプションの利用の計算上の優位性を強調するオプション発見の新たな目的を提案する。
我々の新しいアルゴリズムは、人間の設計した選択肢の集合によって達成される値に近い高い目的値を達成する。
- 参考スコア(独自算出の注目度): 15.874687616157056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new objective for option discovery that emphasizes the
computational advantage of using options in planning. For a given set of
episodic tasks and a given number of options, the objective prefers options
that can be used to achieve a high return by composing few options. By
composing few options, fast planning can be achieved. When faced with new tasks
similar to the given ones, the discovered options are also expected to
accelerate planning. Our objective extends the objective proposed by Harb et
al. (2018) for the single-task setting to the multi-task setting. A closer look
at Harb et al.'s objective shows that the best options discovered given one
task are not likely to be useful for future unseen tasks and that the
multi-task setting is indeed necessary for this purpose. In the same paper,
Harb et al. also proposed an algorithm to optimize their objective, and the
algorithm can be naturally extended to the multi-task setting. We empirically
show that in the four-room domain the extension does not achieve a high
objective value and propose a new algorithm that better optimizes the proposed
objective. In the same four-room domain, we show that 1) a higher objective
value is typically associated with options with which fewer planning iterations
are needed to achieve near-optimal performance, 2) our new algorithm achieves a
high objective value, which is close to the value achieved by a set of
human-designed options, 3) the best number of planning iterations given the
discovered options is much smaller and matches it obtained given human-designed
options, and 4) the options produced by our algorithm also make intuitive sense
because they move to and terminate at cells near hallways connecting two
neighbor rooms.
- Abstract(参考訳): 提案するオプション発見の目的は,計画におけるオプションの利用による計算能力の利点を強調することである。
与えられたエピソードなタスクセットと与えられたオプション数に対して、目的は、少数のオプションを構成することで高いリターンを達成するために使用できるオプションを好む。
少数のオプションを構成すれば、迅速な計画が可能になる。
与えられたタスクに似た新しいタスクに直面した場合、検出されたオプションは計画の加速も期待されている。
私たちの目標は、harb et al. (2018) が提案したシングルタスク設定の目的をマルチタスク設定に拡張することです。
harb と al. の目的を詳しく見ると、1つのタスクで発見された最良のオプションは、将来の未発見のタスクには役に立たず、マルチタスクの設定はこの目的のために本当に必要であることを示している。
同じ論文でharbらは目的を最適化するアルゴリズムも提案しており、アルゴリズムは自然にマルチタスク設定に拡張することができる。
4室の領域において、拡張は高い目的値を達成できないことを実証的に示し、提案する目的をより最適化する新しいアルゴリズムを提案する。
同じ4部屋のドメインで、私たちはそれを示します。
1) 高い客観的価値は一般的に、最適に近いパフォーマンスを達成するために計画イテレーションを少なくするオプションと関連付けられます。
2) 提案アルゴリズムは, 人間の設計した選択肢の集合によって達成される値に近い, 高い目標値を達成する。
3) 得られた選択肢が与えられた最適な計画イテレーション数ははるかに少なく、人が設計した選択肢と一致します。
4) 隣の2部屋を結ぶ廊下付近のセルに移動・停止するので, アルゴリズムが生成するオプションも直感的に理解できる。
関連論文リスト
- Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Optimal Cost-Preference Trade-off Planning with Multiple Temporal Tasks [3.655021726150368]
個別のタスクやその関係性よりも好みを表現できる汎用的な枠組みを提供する新しい選好概念を導入する。
我々は,ユーザの好みに従属する行動と,リソース最適である行動の最適トレードオフ(Pareto)分析を行う。
論文 参考訳(メタデータ) (2023-06-22T21:56:49Z) - Adaptive Multi-Goal Exploration [118.40427257364729]
我々は、AdaGoalが$epsilon$-optimal goal-conditioned policyを学習する目的を達成するためにどのように使えるかを示す。
AdaGoalは、ゴール条件の深い強化学習のための既存の手法の高レベルなアルゴリズム構造に固定されている。
論文 参考訳(メタデータ) (2021-11-23T17:59:50Z) - Optimal To-Do List Gamification for Long Term Planning [0.6882042556551609]
Webやアプリサービスにメソッドを簡単にデプロイできるAPIをリリースしています。
我々は、最適なゲーミフィケーション手法の以前のバージョンを拡張し、すべての処理に十分な時間がない場合に、どのタスクをすべきで、実行すべきでないかを判断するためのサービスを追加します。
本研究では,様々なケーススタディにおいて,値イテレーションを用いて正確に計算したポイントと戦略の性能を比較して,インセンティブ付きTO-DOリストの精度を検証した。
その機能を実証するため、私たちはWebやアプリサービスにメソッドを簡単にデプロイできるAPIをリリースしました。
論文 参考訳(メタデータ) (2021-09-14T08:06:01Z) - Visual scoping operations for physical assembly [0.0]
本稿では,次のサブゴールとして空間領域を交互に定義することで,計画と行動のインターリーブを行う視覚スコープを提案する。
ビジュアルスコーピングは,計算コストのごく一部しか必要とせず,サブゴールプランナーに匹敵するタスク性能を実現する。
論文 参考訳(メタデータ) (2021-06-10T10:50:35Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文 参考訳(メタデータ) (2020-09-01T16:52:51Z) - Long-Horizon Visual Planning with Goal-Conditioned Hierarchical
Predictors [124.30562402952319]
未来に予測し、計画する能力は、世界で行動するエージェントにとって基本である。
視覚的予測と計画のための現在の学習手法は、長期的タスクでは失敗する。
本稿では,これらの制約を克服可能な視覚的予測と計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-23T17:58:56Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Adjust Planning Strategies to Accommodate Reinforcement Learning Agents [0.0]
我々は、反応と計画の関連性の分析を通じて、パラメーターの最適化戦略を作成する。
アルゴリズム全体では、特定のエージェントの反応能力をフル活用して、計画パラメータの十分な設定を見つけることができる。
論文 参考訳(メタデータ) (2020-03-19T03:35:10Z) - Practical Bayesian Optimization of Objectives with Conditioning
Variables [1.0497128347190048]
ユーザが複数の問題に直面している場合、状態変数に対してそれぞれを条件付きで最適化する必要がある場合を考える。
目的間の類似性は、それぞれの目的を2つの方法で最適化する。
本稿では条件最適化のためのフレームワークであるConBOを提案する。
論文 参考訳(メタデータ) (2020-02-23T22:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。