Fugu-MT 論文翻訳(概要): Hierarchical Reinforcement Learning in Multi-Goal Spatial Navigation with Autonomous Mobile Robots

論文の概要: Hierarchical Reinforcement Learning in Multi-Goal Spatial Navigation with Autonomous Mobile Robots

arxiv url: http://arxiv.org/abs/2504.18794v2
Date: Mon, 05 May 2025 17:21:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-06 14:44:44.067356
Title: Hierarchical Reinforcement Learning in Multi-Goal Spatial Navigation with Autonomous Mobile Robots
Title（参考訳）: 自律移動ロボットを用いた多方向空間ナビゲーションにおける階層的強化学習
Authors: Brendon Johnson, Alfredo Weitzenfeld,
Abstract要約: 階層的強化学習(HRL)は、疎い報酬スキームを持つロボット学習における固有の階層を活用できると仮定されている。 HRLの特徴として,サブゴールと終端関数を生成できる能力について評価した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hierarchical reinforcement learning (HRL) is hypothesized to be able to take advantage of the inherent hierarchy in robot learning tasks with sparse reward schemes, in contrast to more traditional reinforcement learning algorithms. In this research, hierarchical reinforcement learning is evaluated and contrasted with standard reinforcement learning in complex navigation tasks. We evaluate unique characteristics of HRL, including their ability to create sub-goals and the termination function. We constructed experiments to test the differences between PPO and HRL, different ways of creating sub-goals, manual vs automatic sub-goal creation, and the effects of the frequency of termination on performance. These experiments highlight the advantages of HRL and how it achieves these advantages.
Abstract（参考訳）: 階層的強化学習(HRL)は、より伝統的な強化学習アルゴリズムとは対照的に、スパース報酬スキームによるロボット学習タスクの固有の階層を活用できると仮定されている。本研究では,複雑なナビゲーションタスクにおいて,階層的強化学習を評価し,標準的な強化学習と対比する。 HRLの特徴として,サブゴールと終端関数を生成できる能力について評価した。 PPOとHRLの違い、サブゴール作成方法の違い、手動と自動サブゴール作成方法、および終了頻度がパフォーマンスに与える影響をテストする実験を構築した。これらの実験は、HRLの利点と、それがこれらの利点をどのように達成するかを強調している。

関連論文リスト

Transitive RL: Value Learning via Divide and Conquer [54.190627631246166]
Transive Reinforcement Learning (TRL) は、分割・分散パラダイムに基づく新しい価値学習アルゴリズムである。モンテカルロ法とは異なり、TRLは動的プログラミングを実行するため、高分散に苦しむ。
論文参考訳（メタデータ） (2025-10-26T03:32:31Z)
From Supervision to Exploration: What Does Protein Language Model Learn During Reinforcement Learning? [76.288870982181]
タンパク質言語モデル(PLM)は、大規模事前学習と拡張性のあるアーキテクチャを通じて高度な計算タンパク質科学を持つ。強化学習(RL)は探索を拡大し、タンパク質設計における正確な多目的最適化を可能にした。 RLはサンプリング効率を向上し,さらに重要な点として,教師あり学習で捉えない能力を明らかにするかどうかを問う。
論文参考訳（メタデータ） (2025-10-02T01:31:10Z)
DARIL: When Imitation Learning outperforms Reinforcement Learning in Surgical Action Planning [36.31322905318951]
今回,CholecT50の手術行動計画において,ILとRLの総合的な比較を行った。我々のデュアルタスク自動回帰学習(DARIL)ベースラインは、34.6%のアクショントリプレット認識mAP、33.6%の次のフレーム予測mAPを達成する。我々は3つのRL変種(ワールドモデルベースRL,ダイレクトビデオRL,逆RL拡張)を評価した。
論文参考訳（メタデータ） (2025-07-07T13:49:57Z)
Bidirectional-Reachable Hierarchical Reinforcement Learning with Mutually Responsive Policies [26.915223518488016]
階層強化学習(HRL)は、それらをサブゴールに分解することで複雑な長距離タスクに対処する。本稿では,計算効率も向上する単純かつ効果的なアルゴリズムである双方向到達型階層型ポリシー最適化(BrHPO)を提案する。様々な長期タスクの実験結果からは、BrHPOは他の最先端のHRLベースラインよりも優れており、探索効率と堅牢性が著しく高いことが示されている。
論文参考訳（メタデータ） (2024-06-26T04:05:04Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Leveraging Reward Consistency for Interpretable Feature Discovery in Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文参考訳（メタデータ） (2023-09-04T09:09:54Z)
RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
本稿では,従来のRLによるタスクごとの学習をMeta-RLに入力するハイブリッドアプローチであるRL$3$を提案する。 RL$3$は、RL$2$よりも長期で累積的な報酬を得られる一方で、メタトレーニング時間を大幅に削減し、アウト・オブ・ディストリビューション・タスクをより一般化することを示す。
論文参考訳（メタデータ） (2023-06-28T04:16:16Z)
Curricular Subgoals for Inverse Reinforcement Learning [21.038691420095525]
逆強化学習(IRL)は、専門家による実証から報酬関数を再構築し、政策学習を促進することを目的としている。既存のIRL法は主に、模倣者と専門家の軌跡の違いを最小限に抑えるために、グローバル報酬関数の学習に重点を置いている。エージェントの模倣を導くために,一タスクを複数の局所的なサブゴールで明示的に切り離す,Curricular Subgoal-based Inverse Reinforcement Learningフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-14T04:06:41Z)
PEAR: Primitive Enabled Adaptive Relabeling for Boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文参考訳（メタデータ） (2023-06-10T09:41:30Z)
Understanding the Synergies between Quality-Diversity and Deep Reinforcement Learning [4.788163807490196]
Generalized Actor-Critic QD-RLは、QD-RL設定におけるアクタークリティカルなディープRLメソッドのための統一的なモジュラーフレームワークである。 PGA-ME (SAC) と PGA-ME (DroQ) という2つの新しいアルゴリズムを導入し,近年のディープRLの進歩をQD-RL設定に適用した。
論文参考訳（メタデータ） (2023-03-10T19:02:42Z)
Entropy Regularized Reinforcement Learning with Cascading Networks [9.973226671536041]
Deep RLは関数近似器としてニューラルネットワークを使用する。 RLの大きな難しさの1つは、i.i.d.データの欠如である。本研究では,ニューラルネットワークを用いた教師なし学習コミュニティの共通実践に挑戦する。
論文参考訳（メタデータ） (2022-10-16T10:28:59Z)
Automated Reinforcement Learning (AutoRL): A Survey and Open Problems [92.73407630874841]
AutoRL(Automated Reinforcement Learning)には、AutoMLの標準的なアプリケーションだけでなく、RL特有の課題も含まれている。我々は共通の分類法を提供し、各領域を詳細に議論し、今後の研究者にとって関心のあるオープンな問題を提起する。
論文参考訳（メタデータ） (2022-01-11T12:41:43Z)
Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。 RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文参考訳（メタデータ） (2021-12-17T16:28:06Z)
Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文参考訳（メタデータ） (2021-10-18T17:56:02Z)
Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文参考訳（メタデータ） (2021-08-03T19:24:25Z)
Combining Pessimism with Optimism for Robust and Efficient Model-Based Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-18T16:50:17Z)
Hierarchical Reinforcement Learning By Discovering Intrinsic Options [18.041140234312934]
HIDIOは、タスク非依存の選択肢を自己指導的に学習し、それらを共同で学習してスパース・リワードのタスクを解く。スパース・リワードロボット操作およびナビゲーションタスクの実験において、HIDIOはより高いサンプル効率で高い成功率を達成する。
論文参考訳（メタデータ） (2021-01-16T20:54:31Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)
Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。現在の最先端の手法に匹敵する幅と精度を実現している。
論文参考訳（メタデータ） (2020-07-09T13:06:07Z)
Hierarchical Reinforcement Learning as a Model of Human Task Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。このモデルは、タスクインターリービングの既知の経験的効果を再現する。その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文参考訳（メタデータ） (2020-01-04T17:53:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。