論文の概要: Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via
Latent Model Ensembles
- arxiv url: http://arxiv.org/abs/2010.14641v3
- Date: Sat, 11 Dec 2021 17:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 11:38:50.348137
- Title: Learning to Plan Optimistically: Uncertainty-Guided Deep Exploration via
Latent Model Ensembles
- Title(参考訳): 最適計画の学習:潜在モデルアンサンブルによる不確実性誘導深層探査
- Authors: Tim Seyde, Wilko Schwarting, Sertac Karaman, Daniela Rus
- Abstract要約: 本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。
潜在世界モデルと値関数推定を組み合わせ、無限水平リターンを予測し、アンサンブルにより関連する不確実性を回復する。
連続行動空間における視覚ロボット制御タスクにLOVEを適用し、最先端や他の探査目標と比較して、平均20%以上のサンプル効率の改善を実証する。
- 参考スコア(独自算出の注目度): 73.15950858151594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning complex robot behaviors through interaction requires structured
exploration. Planning should target interactions with the potential to optimize
long-term performance, while only reducing uncertainty where conducive to this
objective. This paper presents Latent Optimistic Value Exploration (LOVE), a
strategy that enables deep exploration through optimism in the face of
uncertain long-term rewards. We combine latent world models with value function
estimation to predict infinite-horizon returns and recover associated
uncertainty via ensembling. The policy is then trained on an upper confidence
bound (UCB) objective to identify and select the interactions most promising to
improve long-term performance. We apply LOVE to visual robot control tasks in
continuous action spaces and demonstrate on average more than 20% improved
sample efficiency in comparison to state-of-the-art and other exploration
objectives. In sparse and hard to explore environments we achieve an average
improvement of over 30%.
- Abstract(参考訳): インタラクションを通じて複雑なロボットの動作を学ぶには、構造化された探索が必要である。
計画では、長期的なパフォーマンスを最適化する可能性との相互作用を目標としつつ、この目的に結びつく不確実性を減らす必要がある。
本稿では,不確実な長期報酬に直面した最適化による深層探査を可能にするLOVE(Latent Optimistic Value Exploration)を提案する。
潜在世界モデルと値関数推定を組み合わせることで,無限ホリゾンリターンを予測し,エンセムリングによって関連する不確実性を回復する。
このポリシーは、長期的なパフォーマンスを改善するために最も有望な相互作用を識別し、選択するために、上位信頼境界(UCB)の目標に基づいて訓練される。
我々は,連続的な行動空間における視覚ロボット制御タスクにloveを適用し,平均20%以上のサンプル効率向上を実証した。
スパースで調査が難しい環境では、平均30%以上の改善を実現しています。
関連論文リスト
- Efficient Model-Based Reinforcement Learning Through Optimistic Thompson Sampling [11.478146371965984]
本稿では,トンプソンサンプリングに基づく楽観的な探索手法を提案する。
実験により,楽観的な探索は,少ない報奨を伴う環境における学習を著しく促進することが示された。
さらに、最適化がいつ有用かについての洞察を提供し、探索を導く上でのモデル不確実性の重要性を強調します。
論文 参考訳(メタデータ) (2024-10-07T12:42:51Z) - Deep Pareto Reinforcement Learning for Multi-Objective Recommender Systems [60.91599969408029]
複数の目的を同時に最適化することは、レコメンデーションプラットフォームにとって重要なタスクです。
既存の多目的推薦システムは、そのような動的な関係を体系的に考慮していない。
論文 参考訳(メタデータ) (2024-07-04T02:19:49Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Enhancing Robotic Navigation: An Evaluation of Single and
Multi-Objective Reinforcement Learning Strategies [0.9208007322096532]
本研究では,ロボットが目的達成に向けて効果的に移動できるよう訓練するための単目的と多目的の強化学習法の比較分析を行った。
報酬関数を変更して報酬のベクターを返却し、それぞれ異なる目的に関連付けることで、ロボットはそれぞれの目標を効果的にバランスさせるポリシーを学ぶ。
論文 参考訳(メタデータ) (2023-12-13T08:00:26Z) - Goal-conditioned Offline Planning from Curious Exploration [28.953718733443143]
本研究では,教師なし探索技術の産物から目標条件付き行動を抽出することの課題について考察する。
従来の目標条件強化学習手法では,この困難なオフライン環境では,値関数とポリシの抽出が不十分であることがわかった。
そこで本研究では,学習した値のランドスケープに対するモデルベース計画と,グラフベースの値アグリゲーション手法を組み合わせることを提案する。
論文 参考訳(メタデータ) (2023-11-28T17:48:18Z) - Landmark Guided Active Exploration with State-specific Balance Coefficient [4.539657469634845]
目標条件付き値関数に基づいて,目標空間に計画を立てることにより,サブゴールの予測尺度を設計する。
本稿では,予測と新規性の尺度を統合することで,ランドマーク誘導型探査戦略を提案する。
論文 参考訳(メタデータ) (2023-06-30T08:54:47Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - Maximum Entropy Gain Exploration for Long Horizon Multi-goal
Reinforcement Learning [35.44552072132894]
学習エージェントは、歴史的達成目標分布のエントロピーを最大化する固有の目標を設定するべきである。
本研究の戦略は, 長期多目標課題における先行技術よりも, はるかに優れたサンプリング効率を達成できることが示される。
論文 参考訳(メタデータ) (2020-07-06T15:36:05Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。