論文の概要: Adaptive t-Momentum-based Optimization for Unknown Ratio of Outliers in
Amateur Data in Imitation Learning
- arxiv url: http://arxiv.org/abs/2108.00625v1
- Date: Mon, 2 Aug 2021 04:30:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 15:11:36.203789
- Title: Adaptive t-Momentum-based Optimization for Unknown Ratio of Outliers in
Amateur Data in Imitation Learning
- Title(参考訳): 模倣学習におけるアダプティブt-momentum-based optimization for unknown ratio of outliers in amateur data
- Authors: Wendyam Eric Lionel Ilboudo, Taisuke Kobayashi, Kenji Sugimoto
- Abstract要約: 行動学(BC)は、人間のスキルをロボットに安全かつ直接移譲する可能性が高い。
不完全な実演から模倣者が効果的に学習できるようにするため,ロバストなtモーメント最適化アルゴリズムを提案する。
このアルゴリズムが、未知の重みを持つデータセットに対して、堅牢なBC模倣子を生成するためにどのように使用できるかを実証的に示す。
- 参考スコア(独自算出の注目度): 3.145455301228175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavioral cloning (BC) bears a high potential for safe and direct transfer
of human skills to robots. However, demonstrations performed by human operators
often contain noise or imperfect behaviors that can affect the efficiency of
the imitator if left unchecked. In order to allow the imitators to effectively
learn from imperfect demonstrations, we propose to employ the robust t-momentum
optimization algorithm. This algorithm builds on the Student's t-distribution
in order to deal with heavy-tailed data and reduce the effect of outlying
observations. We extend the t-momentum algorithm to allow for an adaptive and
automatic robustness and show empirically how the algorithm can be used to
produce robust BC imitators against datasets with unknown heaviness. Indeed,
the imitators trained with the t-momentum-based Adam optimizers displayed
robustness to imperfect demonstrations on two different manipulation tasks with
different robots and revealed the capability to take advantage of the
additional data while reducing the adverse effect of non-optimal behaviors.
- Abstract(参考訳): 行動クローニング(BC)は、人間のスキルをロボットに安全かつ直接移譲する可能性が高い。
しかしながら、人間のオペレーターによるデモンストレーションでは、未確認の場合には模倣者の効率に影響を与えるノイズや不完全な振る舞いがしばしば含まれる。
不完全な実演から模倣者が効果的に学習できるようにするため,ロバストなtモーメント最適化アルゴリズムを提案する。
このアルゴリズムは、重い尾のデータを処理し、外部観測の効果を減らすために、学生のt分布に基づいて構築される。
適応的かつ自動的なロバスト性を実現するためにt-momentumアルゴリズムを拡張し、未知のヘビーネスを持つデータセットに対してロバストなbc模倣子を生成するために、このアルゴリズムをどのように利用できるか実証的に示す。
実際、t-momentumベースのadamオプティマイザで訓練された模倣者は、異なるロボットで2つの異なる操作タスクで不完全なデモンストレーションを行うための堅牢さを示し、非最適動作の悪影響を低減しながら、追加データを利用する能力を明らかにしました。
関連論文リスト
- Uncertainty-aware Human Mobility Modeling and Anomaly Detection [28.311683535974634]
本研究では,効率的な異常検出に向けて,人間のエージェントの移動行動のモデル化方法について検討する。
我々はGPSデータを時系列の静止点イベントとして使用し、それぞれに時間的特徴を特徴付ける。
数万のエージェントによる大規模専門家シミュレーションデータセットの実験は、我々のモデルの有効性を実証している。
論文 参考訳(メタデータ) (2024-10-02T06:57:08Z) - Equivariant Reinforcement Learning under Partial Observability [18.87759041528553]
本稿では,対称性が効果的な学習に有用な帰納的バイアスとなる部分観測可能な領域を同定する。
我々のアクター批判型強化学習エージェントは、過去におけるソリューションを、関連するシナリオで再利用することができる。
論文 参考訳(メタデータ) (2024-08-26T15:07:01Z) - Erasing Undesirable Influence in Diffusion Models [51.225365010401006]
拡散モデルは高品質な画像を生成するのに非常に効果的であるが、NSFW(職場では安全ではない)コンテンツの意図しない生成のようなリスクを引き起こす。
本研究では,データに関連付けられた不要な情報を取り除き,保存データに対する拡散モデルの実用性を維持するために設計されたアルゴリズムであるEraseDiffを紹介する。
論文 参考訳(メタデータ) (2024-01-11T09:30:36Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Towards Efficient Data-Centric Robust Machine Learning with Noise-based
Augmentation [10.859556815535706]
データ中心の機械学習は、AIモデルのパフォーマンスを改善するための適切なデータセットを構築する効果的な方法を見つけることを目的としている。
本稿では,ガウス雑音,ソルト・アンド・ペッパー雑音,PGD逆摂動からなる雑音に基づくデータ拡張手法を提案する。
提案手法は軽量なアルゴリズムに基づいて構築され,包括的評価に基づいて極めて有効であることが証明された。
論文 参考訳(メタデータ) (2022-03-08T02:05:40Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。