Fugu-MT 論文翻訳(概要): Reinforcement Learning via Auxiliary Task Distillation

論文の概要: Reinforcement Learning via Auxiliary Task Distillation

arxiv url: http://arxiv.org/abs/2406.17168v1
Date: Mon, 24 Jun 2024 23:02:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 18:11:29.106579
Title: Reinforcement Learning via Auxiliary Task Distillation
Title（参考訳）: 補助的タスク蒸留による強化学習
Authors: Abhinav Narayan Harish, Larry Heck, Josiah P. Hanna, Zsolt Kira, Andrew Szot,
Abstract要約: 補助的タスク蒸留(AuxDistill)による強化学習について紹介する。 AuxDistillは、補助的なタスクから振舞いを蒸留することにより、強化学習により長距離ロボット制御問題を実行することができる。我々は,AuxDistillが,実演や学習カリキュラム,事前訓練を受けたスキルを使わずに,多段階の具体的オブジェクト再構成作業を行うための画素対アクションポリシーを学習できることを実証した。
参考スコア（独自算出の注目度）: 24.87090247662755
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Reinforcement Learning via Auxiliary Task Distillation (AuxDistill), a new method that enables reinforcement learning (RL) to perform long-horizon robot control problems by distilling behaviors from auxiliary RL tasks. AuxDistill achieves this by concurrently carrying out multi-task RL with auxiliary tasks, which are easier to learn and relevant to the main task. A weighted distillation loss transfers behaviors from these auxiliary tasks to solve the main task. We demonstrate that AuxDistill can learn a pixels-to-actions policy for a challenging multi-stage embodied object rearrangement task from the environment reward without demonstrations, a learning curriculum, or pre-trained skills. AuxDistill achieves $2.3 \times$ higher success than the previous state-of-the-art baseline in the Habitat Object Rearrangement benchmark and outperforms methods that use pre-trained skills and expert demonstrations.
Abstract（参考訳）: 本稿では,補助的なRLタスクから振舞いを蒸留することにより,強化学習(RL)による長期ロボット制御問題の実行を可能にする,補助的タスク蒸留(AuxDistill)による強化学習を提案する。 AuxDistillは、メインタスクを学習しやすく、関連性の高い補助タスクでマルチタスクRLを同時に実行することで、これを実現する。加重蒸留損失は、これらの補助的なタスクからの挙動を伝達し、主タスクを解決する。我々は、AuxDistillが、実演や学習カリキュラム、事前訓練されたスキルを使わずに、環境報酬から、挑戦的な多段階の具体的オブジェクト再構成タスクのためのピクセル対アクションポリシーを学習できることを実証した。 AuxDistillは、以前のHabitat Object Rearrangementベンチマークの最先端ベースラインよりも2.3 \times$高い成功を達成し、事前訓練されたスキルと専門家のデモンストレーションを使用するメソッドを上回ります。

関連論文リスト

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。 280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文参考訳（メタデータ） (2025-05-29T06:41:45Z)
Unprejudiced Training Auxiliary Tasks Makes Primary Better: A Multi-Task Learning Perspective [55.531894882776726]
マルチタスク学習方法は、補助的なタスクを使用して、特定の一次タスク上でのニューラルネットワークのパフォーマンスを高めることを推奨する。以前の方法では、しばしば補助的なタスクを慎重に選択するが、訓練中に二次的なものとして扱う。本研究では,不確実性に基づく公平な学習手法を提案する。
論文参考訳（メタデータ） (2024-12-27T09:27:18Z)
Dense Dynamics-Aware Reward Synthesis: Integrating Prior Experience with Demonstrations [24.041217922654738]
連続制御問題はスパース・リワード強化学習(RL)タスクとして定式化することができる。オンラインRLメソッドは、各新しいタスクを解決するために、状態空間を自動的に探索することができる。しかしながら、非ゼロ報酬につながる行動列の発見は、タスクの水平線が増加するにつれて指数関数的に難しくなる。本稿では,1)タスク非依存の事前データセットに含まれる情報を抽出し,2)少数のタスク固有の専門家によるデモンストレーションを行う,体系的な報酬形成フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-02T04:37:12Z)
Auxiliary Learning as an Asymmetric Bargaining Game [50.826710465264505]
補助学習におけるタスクのバランスをとるために,AuxiNashという新しい手法を提案する。本報告では,主課題の性能に対する貢献に基づいて,タスクの獲得能力を学ぶための効率的な手順について述べる。複数のマルチタスクベンチマークでAuxiNashを評価し、競合する手法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-01-31T09:41:39Z)
Auxiliary task discovery through generate-and-test [7.800263769988046]
補助的なタスクは、エージェントに補助的な予測と制御目的を学習させることで、データ効率を向上させる。本稿では,表現学習のアイデアに基づく強化学習における補助的タスク発見へのアプローチについて検討する。本研究は,これらの特徴が主課題にどの程度有用かに基づいて,補助課題の有用性を示す新しい尺度を提案する。
論文参考訳（メタデータ） (2022-10-25T22:04:37Z)
DL-DRL: A double-level deep reinforcement learning approach for large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文参考訳（メタデータ） (2022-08-04T04:35:53Z)
Abstract Demonstrations and Adaptive Exploration for Efficient and Stable Multi-step Sparse Reward Reinforcement Learning [44.968170318777105]
本稿では、人間の体験にインスパイアされた2つのコンポーネント、抽象的なデモンストレーションと適応的な探索を統合したDRL探査手法A2を提案する。 A2は、複雑なタスクをサブタスクに分解し、次に学習するサブタスクの正しい順序を提供する。 A2は、一般的なDRLアルゴリズムがこれらの環境でより効率的に安定して学習できることを示す。
論文参考訳（メタデータ） (2022-07-19T12:56:41Z)
Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文参考訳（メタデータ） (2022-04-25T17:58:19Z)
Transfer Learning in Conversational Analysis through Reusing Preprocessing Data as Supervisors [52.37504333689262]
単一タスク学習におけるノイズの多いラベルの使用は、過度に適合するリスクを増大させる。補助的なタスクは、同じトレーニング中に一次タスク学習のパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2021-12-02T08:40:42Z)
Should We Be Pre-training? An Argument for End-task Aware Training as an Alternative [88.11465517304515]
一般に、事前学習のステップは、モデルを微調整するタスクについて、ほとんど、あるいは全く直接の知識に依存しない。エンドタスクと補助目的をマルチタスクすることで、ダウンストリームタスクのパフォーマンスが大幅に向上することを示す。
論文参考訳（メタデータ） (2021-09-15T17:13:18Z)
Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。 RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文参考訳（メタデータ） (2020-11-19T18:47:40Z)
HydaLearn: Highly Dynamic Task Weighting for Multi-task Learning with Auxiliary Tasks [4.095907708855597]
マルチタスク学習(MTL)は、1つ以上の関連する補助タスクと表現を共有することでタスクのパフォーマンスを向上させることができる。通常、MTL-networksは、個別のタスク損失の一定の重み付けによる複合損失関数に基づいて訓練される。実際には, 一定損失重みは, (i) ミニバッチに基づく最適化において, 最適タスク重みは, ミニバッチのサンプル組成に応じて, 更新から次へと大きく変化する。メインタスクのゲインを個別のタスク勾配に結びつけるインテリジェントな重み付けアルゴリズムであるHydaLearnを導入して,その情報を伝達する。
論文参考訳（メタデータ） (2020-08-26T16:04:02Z)
Learning Context-aware Task Reasoning for Efficient Meta-reinforcement Learning [29.125234093368732]
本稿では,新しいタスクの学習において,人間レベルの効率を実現するためのメタRL戦略を提案する。本稿では,メタRL問題をタスク探索,タスク推論,タスク充足という3つのサブタスクに分解する。提案アルゴリズムは,タスク推論の探索を効果的に行い,トレーニングとテストの双方においてサンプル効率を向上し,メタオーバーフィッティング問題を緩和する。
論文参考訳（メタデータ） (2020-03-03T07:38:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。