論文の概要: Learning Multi-Task Transferable Rewards via Variational Inverse
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.09498v1
- Date: Sun, 19 Jun 2022 22:32:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 14:52:27.277385
- Title: Learning Multi-Task Transferable Rewards via Variational Inverse
Reinforcement Learning
- Title(参考訳): 変分逆強化学習によるマルチタスク・トランスファタブル・リワードの学習
- Authors: Se-Wook Yoo, Seung-Woo Seo
- Abstract要約: 我々は、生成的対向ネットワークの枠組みに基づく複数のタスクを伴う状況に対して、エンパワーメントに基づく正規化手法を拡張した。
未知のダイナミクスを持つマルチタスク環境下では、ラベルのない専門家の例から報酬とポリシーを学ぶことに集中する。
提案手法は, 状況的相互情報の変動的下限を導出し, 最適化する。
- 参考スコア(独自算出の注目度): 10.782043595405831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many robotic tasks are composed of a lot of temporally correlated sub-tasks
in a highly complex environment. It is important to discover situational
intentions and proper actions by deliberating on temporal abstractions to solve
problems effectively. To understand the intention separated from changing task
dynamics, we extend an empowerment-based regularization technique to situations
with multiple tasks based on the framework of a generative adversarial network.
Under the multitask environments with unknown dynamics, we focus on learning a
reward and policy from the unlabeled expert examples. In this study, we define
situational empowerment as the maximum of mutual information representing how
an action conditioned on both a certain state and sub-task affects the future.
Our proposed method derives the variational lower bound of the situational
mutual information to optimize it. We simultaneously learn the transferable
multi-task reward function and policy by adding an induced term to the
objective function. By doing so, the multi-task reward function helps to learn
a robust policy for environmental change. We validate the advantages of our
approach on multi-task learning and multi-task transfer learning. We
demonstrate our proposed method has the robustness of both randomness and
changing task dynamics. Finally, we prove that our method has significantly
better performance and data efficiency than existing imitation learning methods
on various benchmarks.
- Abstract(参考訳): 多くのロボットタスクは、非常に複雑な環境で時間的に相関したサブタスクで構成されている。
問題を効果的に解決するために時間的抽象化を検討することで、状況意図や適切な行動を発見することが重要である。
タスクのダイナミクスの変化から切り離された意図を理解するため、生成的敵ネットワークの枠組みに基づく複数のタスクを伴う状況にエンパワーメントベースの正規化手法を拡張した。
未知のダイナミクスを持つマルチタスク環境では、ラベルのない専門家の例から報酬とポリシーを学ぶことに集中する。
本研究では、状況のエンパワーメントを、ある状態とサブタスクの両方の動作条件が未来に与える影響を示す相互情報の最大化として定義する。
提案手法は,状況的相互情報の変動的下限を導出し,最適化する。
目的関数に誘導項を追加することで、転送可能なマルチタスク報酬関数とポリシーを同時に学習する。
これにより、マルチタスク報酬関数は、環境変化に対する堅牢なポリシーを学ぶのに役立つ。
我々は,マルチタスク学習とマルチタスク転送学習におけるアプローチの利点を検証する。
提案手法はランダム性とタスクの動的変化の両方の堅牢性を有することを示す。
最後に,本手法は様々なベンチマークにおいて既存の模倣学習法よりも性能とデータ効率が優れていることを示す。
関連論文リスト
- Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - Multitask Learning with No Regret: from Improved Confidence Bounds to
Active Learning [79.07658065326592]
推定タスクの不確実性の定量化は、オンラインやアクティブな学習など、多くの下流アプリケーションにとって重要な課題である。
タスク間の類似性やタスクの特徴を学習者に提供できない場合、課題設定において新しいマルチタスク信頼区間を提供する。
本稿では,このパラメータを事前に知らないまま,このような改善された後悔を実現する新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-03T13:08:09Z) - Saliency-Regularized Deep Multi-Task Learning [7.3810864598379755]
マルチタスク学習は、知識を共有するために複数の学習タスクを強制し、一般化能力を改善する。
現代のディープマルチタスク学習は、潜在機能とタスク共有を共同で学習することができるが、それらはタスク関係において不明瞭である。
本稿では,潜在的特徴と明示的な課題関係を共同で学習するマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-03T20:26:44Z) - An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale
Multitask Learning Systems [4.675744559395732]
マルチタスク学習は、複数のタスクから学習できるモデルが知識伝達によってより良い品質と効率を達成すると仮定する。
最先端のMLモデルは、タスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。
本稿では,大規模マルチタスクモデルを生成でき,新しいタスクの動的かつ連続的な追加を支援する進化的手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T13:10:47Z) - Human-Centered Prior-Guided and Task-Dependent Multi-Task Representation
Learning for Action Recognition Pre-Training [8.571437792425417]
本稿では,人間中心の事前知識を利用した行動認識事前学習フレームワークを提案する。
具体的には、人間の構文解析モデルから知識を抽出し、表現の意味的能力を強化する。
さらに,知識蒸留とコントラスト学習を組み合わせることで,タスク依存型マルチタスクフレームワークを構成する。
論文 参考訳(メタデータ) (2022-04-27T06:51:31Z) - Leveraging convergence behavior to balance conflicting tasks in
multi-task learning [3.6212652499950138]
マルチタスク学習は、パフォーマンスの一般化を改善するために相関タスクを使用する。
タスクは互いに衝突することが多いため、複数のタスクの勾配をどのように組み合わせるべきかを定義するのは難しい。
バックプロパゲーション中の各タスクの重要度を調整する動的バイアスを生成するために,勾配の時間的挙動を考慮した手法を提案する。
論文 参考訳(メタデータ) (2022-04-14T01:52:34Z) - Modular Adaptive Policy Selection for Multi-Task Imitation Learning
through Task Division [60.232542918414985]
マルチタスク学習は、しばしば負の伝達に悩まされ、タスク固有の情報を共有する。
これは、プロトポリケーションをモジュールとして使用して、タスクを共有可能な単純なサブ振る舞いに分割する。
また、タスクを共有サブ行動とタスク固有のサブ行動の両方に自律的に分割する能力を示す。
論文 参考訳(メタデータ) (2022-03-28T15:53:17Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - Measuring and Harnessing Transference in Multi-Task Learning [58.48659733262734]
マルチタスク学習は、あるタスクによって学習された情報を活用して、他のタスクのトレーニングに役立てることができる。
情報伝達や伝達のダイナミクスを、トレーニングを通して分析する。
論文 参考訳(メタデータ) (2020-10-29T08:25:43Z) - Gradient Surgery for Multi-Task Learning [119.675492088251]
マルチタスク学習は、複数のタスク間で構造を共有するための有望なアプローチとして登場した。
マルチタスク学習がシングルタスク学習と比較して難しい理由は、完全には理解されていない。
本稿では,他の作業の勾配の正規平面上にタスクの勾配を投影する勾配手術の一形態を提案する。
論文 参考訳(メタデータ) (2020-01-19T06:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。