論文の概要: Learning State-Dependent Losses for Inverse Dynamics Learning
- arxiv url: http://arxiv.org/abs/2003.04947v3
- Date: Fri, 14 Aug 2020 21:15:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 21:46:31.827062
- Title: Learning State-Dependent Losses for Inverse Dynamics Learning
- Title(参考訳): 逆ダイナミクス学習における学習状態依存損失
- Authors: Kristen Morse, Neha Das, Yixin Lin, Austin S. Wang, Akshara Rai,
Franziska Meier
- Abstract要約: 本稿では,メタ学習の段階において,構造化された状態依存的損失関数の学習にメタ学習を適用することを提案する。
そして、オンライン適応タスクにおいて、学習した損失に標準的損失を置き換えます。
どちらの設定でも、構造化および状態に依存しない学習損失は、標準的な状態に依存しない損失関数と比較して、オンライン適応速度を改善する。
- 参考スコア(独自算出の注目度): 9.58280099889514
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Being able to quickly adapt to changes in dynamics is paramount in
model-based control for object manipulation tasks. In order to influence fast
adaptation of the inverse dynamics model's parameters, data efficiency is
crucial. Given observed data, a key element to how an optimizer updates model
parameters is the loss function. In this work, we propose to apply
meta-learning to learn structured, state-dependent loss functions during a
meta-training phase. We then replace standard losses with our learned losses
during online adaptation tasks. We evaluate our proposed approach on inverse
dynamics learning tasks, both in simulation and on real hardware data. In both
settings, the structured and state-dependent learned losses improve online
adaptation speed, when compared to standard, state-independent loss functions.
- Abstract(参考訳): ダイナミックスの変化に素早く適応できることは、オブジェクト操作タスクのモデルベースの制御において最重要である。
逆ダイナミクスモデルのパラメータの高速適応に影響を及ぼすためには,データ効率が重要である。
観測データを考えると、オプティマイザがモデルパラメータを更新する方法の重要な要素は損失関数である。
本研究では,メタ学習の段階における状態依存損失関数の学習にメタ学習を適用することを提案する。
次に、オンライン適応タスク中に標準損失を学習損失に置き換えます。
シミュレーションと実ハードウェアデータの両方において,逆ダイナミクス学習タスクに対する提案手法を評価する。
どちらの設定でも、構造化および状態依存学習損失は、標準的な状態依存損失関数と比較してオンライン適応速度を改善する。
関連論文リスト
- UNDIAL: Self-Distillation with Adjusted Logits for Robust Unlearning in Large Language Models [12.45822383965784]
本稿では,UnDIAL(Unlearning via Self-Distillation on Adjusted Logits)を紹介する。
本手法では, 自己蒸留を利用してロジットを調整し, ターゲットトークンの影響を選択的に低減する。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Effect of Choosing Loss Function when Using T-batching for
Representation Learning on Dynamic Networks [0.0]
Tバッチは動的ネットワークモデルをトレーニングする上で貴重なテクニックである。
t-batchingで使用する訓練損失関数の制限について検討した。
これらの問題を克服する2つの代替損失関数を提案し、結果としてトレーニング性能が向上する。
論文 参考訳(メタデータ) (2023-08-13T23:34:36Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Online Loss Function Learning [13.744076477599707]
ロス関数学習は、機械学習モデルの損失関数を設計するタスクを自動化することを目的としている。
基本モデルパラメータへの更新毎に,損失関数をオンラインに適応的に更新する新しい損失関数学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-30T19:22:46Z) - Meta Reinforcement Learning for Adaptive Control: An Offline Approach [3.131740922192114]
トレーニングにおいて、既知のオフライン情報を活用するメタ強化学習(meta-RL)制御戦略を定式化する。
我々のメタRLエージェントはリカレントな構造を持ち、隠された状態変数を通して現在のダイナミックスに対して"コンテキスト"を蓄積します。
ここで報告されたテストでは、メタRLエージェントは完全にオフラインで訓練されたが、新しい設定で優れた結果が得られた。
論文 参考訳(メタデータ) (2022-03-17T23:58:52Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Meta Learning MPC using Finite-Dimensional Gaussian Process
Approximations [0.9539495585692008]
制御における学習手法の実践的適用性を阻害する2つの重要な要因は、その計算複雑性と、目に見えない条件に対する限定的な一般化能力である。
本稿では,従来のタスクからのデータを活用するシステムモデルを学習することにより,適応型モデル予測制御のためのメタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-08-13T15:59:38Z) - Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。
一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。
定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文 参考訳(メタデータ) (2020-04-04T14:16:27Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。