論文の概要: Observation Space Matters: Benchmark and Optimization Algorithm
- arxiv url: http://arxiv.org/abs/2011.00756v1
- Date: Mon, 2 Nov 2020 05:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 11:31:16.125971
- Title: Observation Space Matters: Benchmark and Optimization Algorithm
- Title(参考訳): 観測空間問題:ベンチマークと最適化アルゴリズム
- Authors: Joanne Taery Kim and Sehoon Ha
- Abstract要約: 最適な観測空間を見つけるための探索アルゴリズムを提案する。
本アルゴリズムは,手動で設計した観測空間と比較して学習速度を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 20.503293998529024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep reinforcement learning (deep RL) enable researchers
to solve challenging control problems, from simulated environments to
real-world robotic tasks. However, deep RL algorithms are known to be sensitive
to the problem formulation, including observation spaces, action spaces, and
reward functions. There exist numerous choices for observation spaces but they
are often designed solely based on prior knowledge due to the lack of
established principles. In this work, we conduct benchmark experiments to
verify common design choices for observation spaces, such as Cartesian
transformation, binary contact flags, a short history, or global positions.
Then we propose a search algorithm to find the optimal observation spaces,
which examines various candidate observation spaces and removes unnecessary
observation channels with a Dropout-Permutation test. We demonstrate that our
algorithm significantly improves learning speed compared to manually designed
observation spaces. We also analyze the proposed algorithm by evaluating
different hyperparameters.
- Abstract(参考訳): 深層強化学習(deep rl)の最近の進歩により、研究者はシミュレーション環境から現実世界のロボットタスクまで、難しい制御問題を解決できる。
しかし、深いRLアルゴリズムは、観測空間、アクション空間、報酬関数を含む問題定式化に敏感であることが知られている。
観測空間には多くの選択肢があるが、確立された原理の欠如のため、事前知識のみに基づいて設計されることが多い。
本研究では,デカルト変換,二項接触フラグ,短い履歴,大域的位置といった観測空間の共通設計選択を検証するためのベンチマーク実験を行う。
そこで,様々な観測空間を探索し,ドロップアウト置換試験により不要な観測チャネルを除去する最適観測空間を求める探索アルゴリズムを提案する。
本アルゴリズムは,手動で設計した観測空間と比較して学習速度を大幅に向上することを示した。
また,提案アルゴリズムを異なるパラメータを用いて解析する。
関連論文リスト
- Earth Observation Satellite Scheduling with Graph Neural Networks [1.1684839631276702]
本稿では,グラフニューラルネットワーク(GNN)と深部強化学習(DRL)に基づく観測結果の選択とスケジューリングを行う新しい手法を提案する。
シミュレーションにより,より大規模な実世界のインスタンスに一般化し,従来の手法と比較して非常に競争力のある性能で学習できることが示唆された。
論文 参考訳(メタデータ) (2024-08-27T13:10:26Z) - Gradient-Informed Quality Diversity for the Illumination of Discrete
Spaces [7.799824794686343]
品質多様性(QD)アルゴリズムは、一組の局所最適化ではなく、多種多様かつ高性能なソリューションの大規模なコレクションを探すために提案されている。
本稿では、離散探索空間上の微分可能関数でQDを拡張するグラディエント・インフォームド・ディスクレット・エミッタ(ME-GIDE)を提案する。
我々は,タンパク質設計や離散潜在空間照明を含む挑戦的なベンチマークにおいて,本手法がすべてのベンチマークにおいて最先端QDアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T12:04:52Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Towards Spatial Equilibrium Object Detection [88.9747319572368]
本稿では,現代物体検出器の空間的不平衡問題について考察する。
本稿では,ゾーンにおける検出性能の測定により,この問題の定量化を提案する。
これは、より一般化された測度を設計する動機となり、空間平衡精度と呼ばれる。
論文 参考訳(メタデータ) (2023-01-14T17:33:26Z) - Memetic algorithms for Spatial Partitioning problems [26.73720392872553]
本稿では,実世界のデータセットにおける空間分割という,特定のタイプのSOPに焦点を当てる。
我々は,Swarm-based spatial memetic algorithm (SPATIAL) と呼ばれる単純だが効果的なアルゴリズムを提案し,それを校内限定問題(restricting problem)で検証した。
論文 参考訳(メタデータ) (2022-08-04T20:05:46Z) - Active Exploration via Experiment Design in Markov Chains [86.41407938210193]
科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。
本稿では,最適値に収束したポリシを効率的に選択するアルゴリズムを提案する。
理論分析に加えて,生態モニタリングと薬理学の応用に関する枠組みを概説する。
論文 参考訳(メタデータ) (2022-06-29T00:04:40Z) - k-Means Maximum Entropy Exploration [55.81894038654918]
余分な報酬を伴う連続空間での探索は、強化学習におけるオープンな問題である。
本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。
提案手法は,高次元連続空間における探索のためのベンチマークにおいて,計算効率と競合性の両方を示す。
論文 参考訳(メタデータ) (2022-05-31T09:05:58Z) - Transfer RL across Observation Feature Spaces via Model-Based
Regularization [9.660642248872973]
多くの強化学習(RL)アプリケーションでは、観察空間は人間の開発者によって指定され、物理的実現によって制限される。
そこで本研究では,提案手法を用いて,ソースタスク中の潜時空間のダイナミクスを抽出し,対象タスクに動的モデルを転送するアルゴリズムを提案する。
本アルゴリズムは,タスク間マッピングや目標タスクの事前知識を使わずに,観測空間の劇的な変化に有効である。
論文 参考訳(メタデータ) (2022-01-01T22:41:19Z) - Exploring Complicated Search Spaces with Interleaving-Free Sampling [127.07551427957362]
本稿では,長距離接続を伴う複雑な検索空間上に探索アルゴリズムを構築する。
我々はtextbfIF-NAS という単純なアルゴリズムを提案し、異なるサブネットワークを構築するために周期的なサンプリング戦略を実行する。
提案した探索空間において、IF-NASはランダムサンプリングと従来の重み付け検索のアルゴリズムを有意差で上回っている。
論文 参考訳(メタデータ) (2021-12-05T06:42:48Z) - AutoSpace: Neural Architecture Search with Less Human Interference [84.42680793945007]
現在のニューラルネットワークアーキテクチャ検索(NAS)アルゴリズムは、ネットワーク構築のための検索空間を設計するための専門知識と努力を必要とします。
探索空間を最適なものに進化させる新しい微分可能な進化フレームワークであるAutoSpaceを提案する。
学習した検索空間では、最近のNASアルゴリズムの性能は、以前手作業で設計した空間に比べて大幅に改善できる。
論文 参考訳(メタデータ) (2021-03-22T13:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。