Fugu-MT 論文翻訳(概要): Hierarchical Orchestra of Policies

論文の概要: Hierarchical Orchestra of Policies

arxiv url: http://arxiv.org/abs/2411.03008v1
Date: Tue, 05 Nov 2024 11:13:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.589193
Title: Hierarchical Orchestra of Policies
Title（参考訳）: Hierarchical Orchestra of Policies (英語)
Authors: Thomas P Cannon, Özgür Simsek,
Abstract要約: HOPは、現在の観察と、成功したタスクでこれまで遭遇した観察との類似度基準に基づいて、ポリシーの階層を動的に形成する。 HOPはタスクラベリングを必要としないため、タスク間のバウンダリがあいまいな環境でのロバストな適応を可能にする。本実験は,複数のタスクにまたがってプロシージャ的に生成した環境下で実施し,HOPがタスク間の知識を維持する上で,ベースライン法を著しく上回っていることを示す。
参考スコア（独自算出の注目度）: 1.6574413179773757
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Continual reinforcement learning poses a major challenge due to the tendency of agents to experience catastrophic forgetting when learning sequential tasks. In this paper, we introduce a modularity-based approach, called Hierarchical Orchestra of Policies (HOP), designed to mitigate catastrophic forgetting in lifelong reinforcement learning. HOP dynamically forms a hierarchy of policies based on a similarity metric between the current observations and previously encountered observations in successful tasks. Unlike other state-of-the-art methods, HOP does not require task labelling, allowing for robust adaptation in environments where boundaries between tasks are ambiguous. Our experiments, conducted across multiple tasks in a procedurally generated suite of environments, demonstrate that HOP significantly outperforms baseline methods in retaining knowledge across tasks and performs comparably to state-of-the-art transfer methods that require task labelling. Moreover, HOP achieves this without compromising performance when tasks remain constant, highlighting its versatility.
Abstract（参考訳）: 連続的な強化学習は、エージェントが連続的なタスクを学習する際に破滅的な忘れを経験する傾向があるため、大きな課題となる。本稿では,HOP(Hierarchical Orchestra of Policies)と呼ばれるモジュール性に基づくアプローチを導入する。 HOPは、現在の観察と、成功したタスクでこれまで遭遇した観察との類似度基準に基づいて、ポリシーの階層を動的に形成する。他の最先端の方法とは異なり、HOPはタスクラベリングを必要としないため、タスク間のバウンダリがあいまいな環境でのロバストな適応を可能にする。提案実験は,複数のタスクにまたがって,タスク間での知識保持において,HOPがベースライン手法よりも有意に優れ,タスクラベリングを必要とする最先端のトランスファー手法と相容れない性能を示した。さらに、HOPはタスクが一定である場合にパフォーマンスを損なうことなくこれを達成し、その汎用性を強調します。

関連論文リスト

Exploration and Adaptation in Non-Stationary Tasks with Diffusion Policies [0.0]
本稿では,非定常視覚に基づくRL設定における拡散政策の適用について検討する。我々はDiffusion Policy(拡散ポリシー)を適用し、ProcgenやPointMazeといったベンチマーク環境に反復的な denoising を利用して遅延アクション表現を洗練します。計算要求が増大しているにもかかわらず,拡散ポリシはPPOやDQNなどの標準RL法を常に上回り,変動性を低減した平均値と最大値の報奨が得られることを示した。
論文参考訳（メタデータ） (2025-03-31T23:00:07Z)
COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文参考訳（メタデータ） (2025-02-12T01:31:01Z)
Exploiting Hybrid Policy in Reinforcement Learning for Interpretable Temporal Logic Manipulation [12.243491328213217]
強化学習(Reinforcement Learning, RL)に基づく手法は, ロボット学習においてますます研究されている。本稿では,エージェントの性能向上のために3段階決定層を利用する時間論理誘導型ハイブリッドポリシーフレームワーク(HyTL)を提案する。我々は,HyTLを4つの困難な操作タスクで評価し,その有効性と解釈可能性を示した。
論文参考訳（メタデータ） (2024-12-29T03:34:53Z)
Temporal Abstraction in Reinforcement Learning with Offline Data [8.370420807869321]
本稿では,オンライン階層型強化学習アルゴリズムを,未知の行動ポリシーによって収集されたトランジションのオフラインデータセット上でトレーニング可能なフレームワークを提案する。我々は,Gym MuJoCo環境とロボットグリップのブロックスタッキングタスク,トランスファーおよびゴール条件設定について検証した。
論文参考訳（メタデータ） (2024-07-21T18:10:31Z)
HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文参考訳（メタデータ） (2024-05-28T11:41:41Z)
MENTOR: Guiding Hierarchical Reinforcement Learning with Human Feedback and Dynamic Distance Constraint [40.3872201560003]
階層的強化学習(HRL)は、タスクをサブゴールに分割し、それらを順次完了させる階層的枠組みを使用する。現在の手法は、安定した学習プロセスを保証するための適切なサブゴールを見つけるのに苦労している。本稿では,人間のフィードバックとダイナミック距離制約を取り入れた汎用階層型強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-22T03:11:09Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
TA&AT: Enhancing Task-Oriented Dialog with Turn-Level Auxiliary Tasks and Action-Tree Based Scheduled Sampling [16.77137239284608]
タスク指向対話システムは,対話型事前学習技術によって大きく進歩している。エンコーダのターンレベルマルチタスク目的を提案する。デコーダに対しては,アクションツリーに基づくスケジュールサンプリング手法を導入する。
論文参考訳（メタデータ） (2024-01-28T11:02:23Z)
GO-DICE: Goal-Conditioned Option-Aware Offline Imitation Learning via Stationary Distribution Correction Estimation [1.4703485217797363]
GO-DICEはゴール条件のロングホライゾンシーケンシャルタスクのためのオフラインIL技術である。拡張的なDICEファミリーの技法に触発された政策学習は、静止分布の空間内で両方のレベルが成立する。実験結果はGO-DICEが最近のベースラインより優れていることを裏付けるものである。
論文参考訳（メタデータ） (2023-12-17T19:47:49Z)
Semantically Aligned Task Decomposition in Multi-Agent Reinforcement Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。 SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。 SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文参考訳（メタデータ） (2023-05-18T10:37:54Z)
Building a Subspace of Policies for Scalable Continual Learning [21.03369477853538]
本稿では,一連のタスクで強化学習エージェントを訓練するためのポリシーのサブスペースを段階的に構築する新しいアプローチであるContinuous Subspace of Policies(CSP)を紹介する。 CSPは、Brax(ロコモーション)とContinuous World(操作)という2つの挑戦的なドメインから幅広いシナリオにおいて、多くの人気ベースラインを上回ります。
論文参考訳（メタデータ） (2022-11-18T14:59:42Z)
Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文参考訳（メタデータ） (2022-05-17T06:58:17Z)
Adaptive Procedural Task Generation for Hard-Exploration Problems [78.20918366839399]
ハード探索問題における強化学習を容易にするために,適応手続きタスク生成(APT-Gen)を導入する。私たちのアプローチの中心は、ブラックボックスの手続き生成モジュールを通じてパラメータ化されたタスク空間からタスクを作成することを学習するタスクジェネレータです。学習進捗の直接指標がない場合のカリキュラム学習を可能にするために,生成したタスクにおけるエージェントのパフォーマンスと,対象タスクとの類似性をバランスさせてタスクジェネレータを訓練することを提案する。
論文参考訳（メタデータ） (2020-07-01T09:38:51Z)
Tree-Structured Policy based Progressive Reinforcement Learning for Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文参考訳（メタデータ） (2020-01-18T15:08:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。