論文の概要: Integrating Acting, Planning and Learning in Hierarchical Operational
Models
- arxiv url: http://arxiv.org/abs/2003.03932v1
- Date: Mon, 9 Mar 2020 06:05:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 07:58:46.205353
- Title: Integrating Acting, Planning and Learning in Hierarchical Operational
Models
- Title(参考訳): 階層的運用モデルにおける行動・計画・学習の統合
- Authors: Sunandita Patra, James Mason, Amit Kumar, Malik Ghallab, Paolo
Traverso, Dana Nau
- Abstract要約: 我々はRAE(Refinement Acting Engine)のための新しい計画と学習アルゴリズムを提案する。
我々の計画手法であるUPOMは、作業や状況に最適な手法を見つけるために、運用モデルの空間でUTTに似た探索を行う。
実験の結果,UPOMと学習戦略は,4つのテスト領域におけるRAEの性能を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 7.009282389520865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present new planning and learning algorithms for RAE, the Refinement
Acting Engine. RAE uses hierarchical operational models to perform tasks in
dynamically changing environments. Our planning procedure, UPOM, does a
UCT-like search in the space of operational models in order to find a
near-optimal method to use for the task and context at hand. Our learning
strategies acquire, from online acting experiences and/or simulated planning
results, a mapping from decision contexts to method instances as well as a
heuristic function to guide UPOM. Our experimental results show that UPOM and
our learning strategies significantly improve RAE's performance in four test
domains using two different metrics: efficiency and success ratio.
- Abstract(参考訳): 我々はRAE(Refinement Acting Engine)のための新しい計画と学習アルゴリズムを提案する。
RAEは階層的な運用モデルを使用して動的に変化する環境でタスクを実行する。
当社の計画手順であるupomは,運用モデルの空間でuttライクな検索を行い,タスクや手元のコンテキストに最適な近似手法を見つける。
我々の学習戦略は、オンライン行動経験および/またはシミュレートされた計画結果から、決定コンテキストからメソッドインスタンスへのマッピングと、upomを導くヒューリスティック関数を取得します。
実験の結果,upomと学習戦略は,効率と成功率の2つの指標を用いて,4つのテスト領域におけるraeの性能を大幅に向上させた。
関連論文リスト
- EgoPlan-Bench: Benchmarking Egocentric Embodied Planning with Multimodal
Large Language Models [87.8282946526824]
EgoPlan-Benchという人間のアノテーションを用いたベンチマークを導入し,MLLMの具体的タスクプランナとしての可能性について定量的に検討する。
各種オープンソースMLLMを評価し,これらのモデルがまだ具体化された計画ジェネラリストに進化していないことを明らかにした。
我々は,高レベルのタスクプランニングの学習を容易にするために,人間とオブジェクトのインタラクションのビデオから指導学習データセットEgoPlan-ITを構築した。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - Multi-Task Cooperative Learning via Searching for Flat Minima [8.835287696319641]
本稿では,MTLを多段最適化問題として定式化し,各タスクから協調的なアプローチで特徴を学習させることを提案する。
具体的には、他のタスクの学習したサブモデルを利用する代わりに、各タスクのサブモデルを更新する。
最適化時の負の伝達問題を緩和するため、現在の目的関数に対する平坦な最小値を求める。
論文 参考訳(メタデータ) (2023-09-21T14:00:11Z) - Action Pick-up in Dynamic Action Space Reinforcement Learning [6.15205100319133]
我々は,新しいアクションセットからパフォーマンスを高める可能性が最も高い価値あるアクションを自律的に選択するための,インテリジェントなアクションピックアップ(AP)アルゴリズムを提案する。
本稿では,まず,事前の最適政策が有用な知識と経験を提供することで,行動ピックアップにおいて重要な役割を担っていることを理論的に分析し,発見する。
次に、周波数に基づくグローバルメソッドと、事前の最適ポリシーに基づく状態クラスタリングに基づくローカルメソッドの2つの異なるAPメソッドを設計する。
論文 参考訳(メタデータ) (2023-04-03T10:55:16Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Double Meta-Learning for Data Efficient Policy Optimization in
Non-Stationary Environments [12.45281856559346]
我々は、マルチタスク学習問題とみなすことができる非定常環境の学習モデルに興味を持っている。
モデルなし強化学習アルゴリズムは、広範囲なサンプリングを犠牲にしてマルチタスク学習において優れた性能を達成することができる。
モデルベースのアプローチは最もデータ効率のよい学習アルゴリズムの1つだが、それでも複雑なタスクやモデルの不確実性に苦慮している。
論文 参考訳(メタデータ) (2020-11-21T03:19:35Z) - Deliberative Acting, Online Planning and Learning with Hierarchical
Operational Models [5.597986898418404]
AI研究では、アクションの計画は通常、アクションの結果として起こる可能性のあることを抽象的に特定するアクションの記述モデルを使用してきた。
計画されたアクションの実行には、リッチな計算制御構造とクローズドループオンライン意思決定を使用する運用モデルが必要である。
我々は、計画と行動の両方が同じ運用モデルを使用する統合された行動計画システムを実装している。
論文 参考訳(メタデータ) (2020-10-02T14:50:05Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z) - Model-based Adversarial Meta-Reinforcement Learning [38.28304764312512]
モデルに基づく対向メタ強化学習(AdMRL)を提案する。
AdMRLは、タスクファミリ内のすべてのタスク間の最悪の部分最適化ギャップを最小限にすることを目的としている。
本手法をいくつかの連続制御ベンチマークで評価し,全てのタスクに対して最悪の性能を示す。
論文 参考訳(メタデータ) (2020-06-16T02:21:49Z) - Provable Representation Learning for Imitation Learning via Bi-level
Optimization [60.059520774789654]
現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。
我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。
このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
論文 参考訳(メタデータ) (2020-02-24T21:03:52Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。