論文の概要: Efficient Multi-Task Reinforcement Learning with Cross-Task Policy Guidance
- arxiv url: http://arxiv.org/abs/2507.06615v1
- Date: Wed, 09 Jul 2025 07:36:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.506234
- Title: Efficient Multi-Task Reinforcement Learning with Cross-Task Policy Guidance
- Title(参考訳): クロスタスクポリシーガイダンスを用いたマルチタスク強化学習の効率化
- Authors: Jinmin He, Kai Li, Yifan Zang, Haobo Fu, Qiang Fu, Junliang Xing, Jian Cheng,
- Abstract要約: 我々はクロスタスク・ポリシー・ガイダンス(CTPG)と呼ばれる新しいフレームワークを提案する。
CTPGは、全てのタスクの制御ポリシーから環境と相互作用する行動ポリシーを選択するために、各タスクのガイドポリシーを訓練する。
さらに,ロコモーションGの学習効率を向上させるための2つのゲーティング機構を提案する。一方のゲートはガイダンスに不利な制御ポリシーをフィルタリングし,他方のゲートはガイダンスを必要としないタスクをブロックする。
- 参考スコア(独自算出の注目度): 25.18006424626525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task reinforcement learning endeavors to efficiently leverage shared information across various tasks, facilitating the simultaneous learning of multiple tasks. Existing approaches primarily focus on parameter sharing with carefully designed network structures or tailored optimization procedures. However, they overlook a direct and complementary way to exploit cross-task similarities: the control policies of tasks already proficient in some skills can provide explicit guidance for unmastered tasks to accelerate skills acquisition. To this end, we present a novel framework called Cross-Task Policy Guidance (CTPG), which trains a guide policy for each task to select the behavior policy interacting with the environment from all tasks' control policies, generating better training trajectories. In addition, we propose two gating mechanisms to improve the learning efficiency of CTPG: one gate filters out control policies that are not beneficial for guidance, while the other gate blocks tasks that do not necessitate guidance. CTPG is a general framework adaptable to existing parameter sharing approaches. Empirical evaluations demonstrate that incorporating CTPG with these approaches significantly enhances performance in manipulation and locomotion benchmarks.
- Abstract(参考訳): マルチタスク強化学習は、様々なタスク間で共有情報を効率的に活用し、複数のタスクの同時学習を容易にする。
既存のアプローチは主に、慎重に設計されたネットワーク構造や最適化手順によるパラメータ共有に重点を置いている。
しかし、彼らはクロスタスクの類似性を利用する直接的な補完的な方法を見落としている。すでにある程度のスキルに熟練したタスクの制御ポリシーは、スキル獲得を加速する未習得タスクの明確なガイダンスを提供することができる。
そこで本研究では,タスクの制御ポリシから環境と相互作用する行動ポリシーを選択し,より優れたトレーニングトラジェクトリを生成するための,タスク毎のガイドポリシーをトレーニングする,クロスタスクポリシーガイダンス(CTPG)という新しいフレームワークを提案する。
さらに、CTPGの学習効率を向上させるための2つのゲーティング機構を提案する。一方のゲートは、ガイダンスに役立たない制御ポリシーをフィルタリングし、他方のゲートはガイダンスを必要としないタスクをブロックする。
CTPGは、既存のパラメータ共有アプローチに適応可能な一般的なフレームワークである。
実験により,CTPGをこれらのアプローチに組み込むことで,操作および移動ベンチマークのパフォーマンスが著しく向上することが示された。
関連論文リスト
- Multi-Task Reinforcement Learning for Quadrotors [18.71563817810032]
本稿では,四重項制御に適した新しいマルチタスク強化学習(MTRL)フレームワークを提案する。
マルチクリティカルなアーキテクチャと共有タスクエンコーダを用いることで,タスク間の知識伝達を容易にし,単一のポリシで多様な操作を実行することができる。
論文 参考訳(メタデータ) (2024-12-17T01:10:18Z) - Task-Aware Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [70.96345405979179]
オフラインマルチタスク強化学習(MTRL)の目的は、オンライン環境相互作用を必要とせず、多様なタスクに適用可能な統一されたポリシーを開発することである。
タスクの内容と複雑さの変化は、政策の定式化において重大な課題を引き起こします。
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
論文 参考訳(メタデータ) (2024-11-02T05:49:14Z) - Active Fine-Tuning of Multi-Task Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - Efficient Multi-Task Reinforcement Learning via Task-Specific Action Correction [10.388605128396678]
Task-Specific Action Correctionは複数のタスクの同時学習用に設計されている。
ACPは目標指向のスパース報酬を取り入れており、エージェントが長期的な視点を採用することができる。
付加的な報酬は、元の問題を多目的MTRL問題に変換する。
論文 参考訳(メタデータ) (2024-04-09T02:11:35Z) - QMP: Q-switch Mixture of Policies for Multi-Task Behavior Sharing [18.127823952220123]
マルチタスク強化学習(MTRL)は、複数のタスクを同時に学習してサンプル効率を向上させることを目的としている。
本稿では,既存のMTRLメソッドに加えて,タスク間での行動ポリシーを共有するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-01T18:58:20Z) - Continual Vision-based Reinforcement Learning with Group Symmetries [18.7526848176769]
我々は,COVERSと呼ばれるグループ対称性を認識する,ユニークな連続視覚に基づく強化学習手法を提案する。
その結果, COVERS は各グループにタスクを正確に割り当て, 一般化能力において既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-21T23:41:02Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。