論文の概要: Distill Knowledge in Multi-task Reinforcement Learning with
Optimal-Transport Regularization
- arxiv url: http://arxiv.org/abs/2309.15603v1
- Date: Wed, 27 Sep 2023 12:06:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 13:53:42.726333
- Title: Distill Knowledge in Multi-task Reinforcement Learning with
Optimal-Transport Regularization
- Title(参考訳): 最適輸送正規化による多タスク強化学習における蒸留知識
- Authors: Bang Giang Le, Viet Cuong Ta
- Abstract要約: マルチタスク強化学習では、他の異なるタスクから知識を伝達することで、トレーニングエージェントのデータ効率を向上させることができる。
伝統的な手法は、あるタスクから他のタスクへの知識の移動を安定化するために、Kulback-Leibler正規化に依存している。
本研究では,Kulback-Leiblerの発散を,新しいトランスポートベース正規化に置き換える方向について検討する。
- 参考スコア(独自算出の注目度): 0.24475591916185496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-task reinforcement learning, it is possible to improve the data
efficiency of training agents by transferring knowledge from other different
but related tasks. Because the experiences from different tasks are usually
biased toward the specific task goals. Traditional methods rely on
Kullback-Leibler regularization to stabilize the transfer of knowledge from one
task to the others. In this work, we explore the direction of replacing the
Kullback-Leibler divergence with a novel Optimal transport-based
regularization. By using the Sinkhorn mapping, we can approximate the Optimal
transport distance between the state distribution of tasks. The distance is
then used as an amortized reward to regularize the amount of sharing
information. We experiment our frameworks on several grid-based navigation
multi-goal to validate the effectiveness of the approach. The results show that
our added Optimal transport-based rewards are able to speed up the learning
process of agents and outperforms several baselines on multi-task learning.
- Abstract(参考訳): マルチタスク強化学習では、他の異なるタスクから知識を伝達することで、トレーニングエージェントのデータ効率を向上させることができる。
なぜなら、異なるタスクからの経験は、通常、特定のタスク目標に偏っているからです。
伝統的な手法は、あるタスクから他のタスクへの知識の移動を安定化するために、Kulback-Leibler正規化に依存する。
本研究では,Kulback-Leiblerの分岐を,新しい輸送型正規化に置き換える方向について検討する。
シンクホーン写像を用いることで、タスクの状態分布間の最適輸送距離を近似することができる。
そして、その距離を償還報酬として利用し、共有情報の量を定式化する。
提案手法の有効性を検証するために,複数のグリッドベースのナビゲーションマルチゴールのフレームワークを実験した。
その結果、最適輸送に基づく報酬は、エージェントの学習プロセスを高速化し、マルチタスク学習におけるいくつかのベースラインを上回ります。
関連論文リスト
- PEMT: Multi-Task Correlation Guided Mixture-of-Experts Enables Parameter-Efficient Transfer Learning [28.353530290015794]
マルチタスク変換学習に基づくパラメータ効率の高いファインチューニングフレームワークPEMTを提案する。
我々は17のデータセットにまたがる幅広いタスクについて実験を行う。
論文 参考訳(メタデータ) (2024-02-23T03:59:18Z) - Sharing Knowledge in Multi-Task Deep Reinforcement Learning [57.38874587065694]
マルチタスク強化学習において、ディープニューラルネットワークを効果的に活用するためのタスク間の表現の共有の利点について検討する。
我々は,タスク間で表現を共有するのに便利な条件を強調する理論的保証を提供することで,これを証明している。
論文 参考訳(メタデータ) (2024-01-17T19:31:21Z) - Similarity-based Knowledge Transfer for Cross-Domain Reinforcement
Learning [3.3148826359547523]
我々は,エンコーダ・デコーダのセットを用いて,異なる空間に適合する半教師付きアライメント損失を開発する。
従来の手法と比較して、我々の手法は専門家のポリシーによって整列、ペア化、あるいは収集されるデータを必要としない。
論文 参考訳(メタデータ) (2023-12-05T19:26:01Z) - Visual Exemplar Driven Task-Prompting for Unified Perception in
Autonomous Driving [100.3848723827869]
本稿では,タスク固有のプロンプトを通じて視覚的見本を提示する,効果的なマルチタスクフレームワークVE-Promptを提案する。
具体的には、境界ボックスと色に基づくマーカーに基づいて視覚的な例を生成し、ターゲットカテゴリの正確な視覚的外観を提供する。
我々は変圧器をベースとしたエンコーダと畳み込み層を橋渡しし、自律運転における効率的かつ正確な統合認識を実現する。
論文 参考訳(メタデータ) (2023-03-03T08:54:06Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Learning Multi-Task Transferable Rewards via Variational Inverse
Reinforcement Learning [10.782043595405831]
我々は、生成的対向ネットワークの枠組みに基づく複数のタスクを伴う状況に対して、エンパワーメントに基づく正規化手法を拡張した。
未知のダイナミクスを持つマルチタスク環境下では、ラベルのない専門家の例から報酬とポリシーを学ぶことに集中する。
提案手法は, 状況的相互情報の変動的下限を導出し, 最適化する。
論文 参考訳(メタデータ) (2022-06-19T22:32:41Z) - Measuring and Harnessing Transference in Multi-Task Learning [58.48659733262734]
マルチタスク学習は、あるタスクによって学習された情報を活用して、他のタスクのトレーニングに役立てることができる。
情報伝達や伝達のダイナミクスを、トレーニングを通して分析する。
論文 参考訳(メタデータ) (2020-10-29T08:25:43Z) - Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。
私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。
提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文 参考訳(メタデータ) (2020-09-24T15:40:55Z) - Uniform Priors for Data-Efficient Transfer [65.086680950871]
もっとも移動可能な特徴は埋め込み空間において高い均一性を有することを示す。
我々は、未確認のタスクやデータへの適応を容易にする能力の正規化を評価する。
論文 参考訳(メタデータ) (2020-06-30T04:39:36Z) - Inter- and Intra-domain Knowledge Transfer for Related Tasks in Deep
Character Recognition [2.320417845168326]
ImageNetデータセットでディープニューラルネットワークを事前トレーニングすることは、ディープラーニングモデルをトレーニングするための一般的なプラクティスである。
1つのタスクで事前トレーニングを行い、新しいタスクで再トレーニングするテクニックは、トランスファーラーニング(transfer learning)と呼ばれる。
本稿では,文字認識タスクにおけるDeep Transfer Learningの有効性について分析する。
論文 参考訳(メタデータ) (2020-01-02T14:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。