論文の概要: Adaptive t-Momentum-based Optimization for Unknown Ratio of Outliers in
Amateur Data in Imitation Learning
- arxiv url: http://arxiv.org/abs/2108.00625v1
- Date: Mon, 2 Aug 2021 04:30:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 15:11:36.203789
- Title: Adaptive t-Momentum-based Optimization for Unknown Ratio of Outliers in
Amateur Data in Imitation Learning
- Title(参考訳): 模倣学習におけるアダプティブt-momentum-based optimization for unknown ratio of outliers in amateur data
- Authors: Wendyam Eric Lionel Ilboudo, Taisuke Kobayashi, Kenji Sugimoto
- Abstract要約: 行動学(BC)は、人間のスキルをロボットに安全かつ直接移譲する可能性が高い。
不完全な実演から模倣者が効果的に学習できるようにするため,ロバストなtモーメント最適化アルゴリズムを提案する。
このアルゴリズムが、未知の重みを持つデータセットに対して、堅牢なBC模倣子を生成するためにどのように使用できるかを実証的に示す。
- 参考スコア(独自算出の注目度): 3.145455301228175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavioral cloning (BC) bears a high potential for safe and direct transfer
of human skills to robots. However, demonstrations performed by human operators
often contain noise or imperfect behaviors that can affect the efficiency of
the imitator if left unchecked. In order to allow the imitators to effectively
learn from imperfect demonstrations, we propose to employ the robust t-momentum
optimization algorithm. This algorithm builds on the Student's t-distribution
in order to deal with heavy-tailed data and reduce the effect of outlying
observations. We extend the t-momentum algorithm to allow for an adaptive and
automatic robustness and show empirically how the algorithm can be used to
produce robust BC imitators against datasets with unknown heaviness. Indeed,
the imitators trained with the t-momentum-based Adam optimizers displayed
robustness to imperfect demonstrations on two different manipulation tasks with
different robots and revealed the capability to take advantage of the
additional data while reducing the adverse effect of non-optimal behaviors.
- Abstract(参考訳): 行動クローニング(BC)は、人間のスキルをロボットに安全かつ直接移譲する可能性が高い。
しかしながら、人間のオペレーターによるデモンストレーションでは、未確認の場合には模倣者の効率に影響を与えるノイズや不完全な振る舞いがしばしば含まれる。
不完全な実演から模倣者が効果的に学習できるようにするため,ロバストなtモーメント最適化アルゴリズムを提案する。
このアルゴリズムは、重い尾のデータを処理し、外部観測の効果を減らすために、学生のt分布に基づいて構築される。
適応的かつ自動的なロバスト性を実現するためにt-momentumアルゴリズムを拡張し、未知のヘビーネスを持つデータセットに対してロバストなbc模倣子を生成するために、このアルゴリズムをどのように利用できるか実証的に示す。
実際、t-momentumベースのadamオプティマイザで訓練された模倣者は、異なるロボットで2つの異なる操作タスクで不完全なデモンストレーションを行うための堅牢さを示し、非最適動作の悪影響を低減しながら、追加データを利用する能力を明らかにしました。
関連論文リスト
- Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Neural Active Learning on Heteroskedastic Distributions [29.01776999862397]
ヘテロスケダスティックデータセット上でのアクティブ学習アルゴリズムの破滅的な失敗を実証する。
本稿では,各データポイントにモデル差分スコアリング関数を組み込んで,ノイズの多いサンプルとサンプルクリーンなサンプルをフィルタするアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-02T07:30:19Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Towards Efficient Data-Centric Robust Machine Learning with Noise-based
Augmentation [10.859556815535706]
データ中心の機械学習は、AIモデルのパフォーマンスを改善するための適切なデータセットを構築する効果的な方法を見つけることを目的としている。
本稿では,ガウス雑音,ソルト・アンド・ペッパー雑音,PGD逆摂動からなる雑音に基づくデータ拡張手法を提案する。
提案手法は軽量なアルゴリズムに基づいて構築され,包括的評価に基づいて極めて有効であることが証明された。
論文 参考訳(メタデータ) (2022-03-08T02:05:40Z) - Active Uncertainty Learning for Human-Robot Interaction: An Implicit
Dual Control Approach [5.05828899601167]
暗黙的な二重制御パラダイムに基づくループ内動作計画のための不確実性学習を実現するアルゴリズムを提案する。
提案手法は,動的プログラミングモデル予測制御問題のサンプリングに基づく近似に依拠する。
結果として得られたポリシーは、連続的およびカテゴリー的不確実性を持つ一般的な人間の予測モデルに対する二重制御効果を維持することが示されている。
論文 参考訳(メタデータ) (2022-02-15T20:40:06Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。