論文の概要: Reinforcement Learning via Auxiliary Task Distillation
- arxiv url: http://arxiv.org/abs/2406.17168v1
- Date: Mon, 24 Jun 2024 23:02:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 18:11:29.106579
- Title: Reinforcement Learning via Auxiliary Task Distillation
- Title(参考訳): 補助的タスク蒸留による強化学習
- Authors: Abhinav Narayan Harish, Larry Heck, Josiah P. Hanna, Zsolt Kira, Andrew Szot,
- Abstract要約: 補助的タスク蒸留(AuxDistill)による強化学習について紹介する。
AuxDistillは、補助的なタスクから振舞いを蒸留することにより、強化学習により長距離ロボット制御問題を実行することができる。
我々は,AuxDistillが,実演や学習カリキュラム,事前訓練を受けたスキルを使わずに,多段階の具体的オブジェクト再構成作業を行うための画素対アクションポリシーを学習できることを実証した。
- 参考スコア(独自算出の注目度): 24.87090247662755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Reinforcement Learning via Auxiliary Task Distillation (AuxDistill), a new method that enables reinforcement learning (RL) to perform long-horizon robot control problems by distilling behaviors from auxiliary RL tasks. AuxDistill achieves this by concurrently carrying out multi-task RL with auxiliary tasks, which are easier to learn and relevant to the main task. A weighted distillation loss transfers behaviors from these auxiliary tasks to solve the main task. We demonstrate that AuxDistill can learn a pixels-to-actions policy for a challenging multi-stage embodied object rearrangement task from the environment reward without demonstrations, a learning curriculum, or pre-trained skills. AuxDistill achieves $2.3 \times$ higher success than the previous state-of-the-art baseline in the Habitat Object Rearrangement benchmark and outperforms methods that use pre-trained skills and expert demonstrations.
- Abstract(参考訳): 本稿では,補助的なRLタスクから振舞いを蒸留することにより,強化学習(RL)による長期ロボット制御問題の実行を可能にする,補助的タスク蒸留(AuxDistill)による強化学習を提案する。
AuxDistillは、メインタスクを学習しやすく、関連性の高い補助タスクでマルチタスクRLを同時に実行することで、これを実現する。
加重蒸留損失は、これらの補助的なタスクからの挙動を伝達し、主タスクを解決する。
我々は、AuxDistillが、実演や学習カリキュラム、事前訓練されたスキルを使わずに、環境報酬から、挑戦的な多段階の具体的オブジェクト再構成タスクのためのピクセル対アクションポリシーを学習できることを実証した。
AuxDistillは、以前のHabitat Object Rearrangementベンチマークの最先端ベースラインよりも2.3 \times$高い成功を達成し、事前訓練されたスキルと専門家のデモンストレーションを使用するメソッドを上回ります。
関連論文リスト
- Unprejudiced Training Auxiliary Tasks Makes Primary Better: A Multi-Task Learning Perspective [55.531894882776726]
マルチタスク学習方法は、補助的なタスクを使用して、特定の一次タスク上でのニューラルネットワークのパフォーマンスを高めることを推奨する。
以前の方法では、しばしば補助的なタスクを慎重に選択するが、訓練中に二次的なものとして扱う。
本研究では,不確実性に基づく公平な学習手法を提案する。
論文 参考訳(メタデータ) (2024-12-27T09:27:18Z) - Dense Dynamics-Aware Reward Synthesis: Integrating Prior Experience with Demonstrations [24.041217922654738]
連続制御問題はスパース・リワード強化学習(RL)タスクとして定式化することができる。
オンラインRLメソッドは、各新しいタスクを解決するために、状態空間を自動的に探索することができる。
しかしながら、非ゼロ報酬につながる行動列の発見は、タスクの水平線が増加するにつれて指数関数的に難しくなる。
本稿では,1)タスク非依存の事前データセットに含まれる情報を抽出し,2)少数のタスク固有の専門家によるデモンストレーションを行う,体系的な報酬形成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-02T04:37:12Z) - Auxiliary Learning as an Asymmetric Bargaining Game [50.826710465264505]
補助学習におけるタスクのバランスをとるために,AuxiNashという新しい手法を提案する。
本報告では,主課題の性能に対する貢献に基づいて,タスクの獲得能力を学ぶための効率的な手順について述べる。
複数のマルチタスクベンチマークでAuxiNashを評価し、競合する手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-01-31T09:41:39Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Abstract Demonstrations and Adaptive Exploration for Efficient and
Stable Multi-step Sparse Reward Reinforcement Learning [44.968170318777105]
本稿では、人間の体験にインスパイアされた2つのコンポーネント、抽象的なデモンストレーションと適応的な探索を統合したDRL探査手法A2を提案する。
A2は、複雑なタスクをサブタスクに分解し、次に学習するサブタスクの正しい順序を提供する。
A2は、一般的なDRLアルゴリズムがこれらの環境でより効率的に安定して学習できることを示す。
論文 参考訳(メタデータ) (2022-07-19T12:56:41Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Transfer Learning in Conversational Analysis through Reusing
Preprocessing Data as Supervisors [52.37504333689262]
単一タスク学習におけるノイズの多いラベルの使用は、過度に適合するリスクを増大させる。
補助的なタスクは、同じトレーニング中に一次タスク学習のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-12-02T08:40:42Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Learning Context-aware Task Reasoning for Efficient Meta-reinforcement
Learning [29.125234093368732]
本稿では,新しいタスクの学習において,人間レベルの効率を実現するためのメタRL戦略を提案する。
本稿では,メタRL問題をタスク探索,タスク推論,タスク充足という3つのサブタスクに分解する。
提案アルゴリズムは,タスク推論の探索を効果的に行い,トレーニングとテストの双方においてサンプル効率を向上し,メタオーバーフィッティング問題を緩和する。
論文 参考訳(メタデータ) (2020-03-03T07:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。