論文の概要: Improving Behavioural Cloning with Positive Unlabeled Learning
- arxiv url: http://arxiv.org/abs/2301.11734v2
- Date: Thu, 21 Sep 2023 11:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 20:06:44.970350
- Title: Improving Behavioural Cloning with Positive Unlabeled Learning
- Title(参考訳): 正のラベルなし学習による行動クローニングの改善
- Authors: Qiang Wang, Robert McCarthy, David Cordova Bulens, Kevin McGuinness,
Noel E. O'Connor, Nico G\"urtler, Felix Widmaier, Francisco Roldan Sanchez,
Stephen J. Redmond
- Abstract要約: 本稿では,混合品質のロボットデータセットにおける専門家の軌跡を特定するための,新しい反復学習アルゴリズムを提案する。
結果のフィルタデータセットに行動クローンを適用することで、競合するオフライン強化学習と模倣学習ベースラインを上回っます。
- 参考スコア(独自算出の注目度): 15.484227081812852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning control policies offline from pre-recorded datasets is a promising
avenue for solving challenging real-world problems. However, available datasets
are typically of mixed quality, with a limited number of the trajectories that
we would consider as positive examples; i.e., high-quality demonstrations.
Therefore, we propose a novel iterative learning algorithm for identifying
expert trajectories in unlabeled mixed-quality robotics datasets given a
minimal set of positive examples, surpassing existing algorithms in terms of
accuracy. We show that applying behavioral cloning to the resulting filtered
dataset outperforms several competitive offline reinforcement learning and
imitation learning baselines. We perform experiments on a range of simulated
locomotion tasks and on two challenging manipulation tasks on a real robotic
system; in these experiments, our method showcases state-of-the-art
performance. Our website:
\url{https://sites.google.com/view/offline-policy-learning-pubc}.
- Abstract(参考訳): 事前記録されたデータセットからオフラインで学習制御ポリシを学習することは、現実の問題を解決する上で有望な方法だ。
しかし、利用可能なデータセットは、典型的には混合品質であり、我々が肯定的な例と考える軌道の限られた数、すなわち高品質なデモンストレーションである。
そこで本研究では,既存のアルゴリズムを精度の面で上回る,最小限の正の例を与えられた非ラベル型混合品質ロボットデータセットにおいて,専門家の軌跡を識別するための新しい反復学習アルゴリズムを提案する。
フィルタしたデータセットに行動クローニングを適用することで、競合するオフライン強化学習や模倣学習ベースラインよりも優れていることを示す。
そこで本研究では,ロボットの動作をシミュレーションする作業と,実際のロボットシステム上での2つの困難な操作作業について実験を行った。
私たちのウェブサイト: \url{https://sites.google.com/view/offline-policy-learning-pubc}
関連論文リスト
- How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Benchmarking Offline Reinforcement Learning on Real-Robot Hardware [35.29390454207064]
特にデクサラスな操作は、その一般的な形式において未解決の問題である。
本稿では,2つのタスク上の厳密な操作プラットフォームからオフライン学習のための大量のデータを含むベンチマークを提案する。
実システム上でのオフライン強化学習のための再現可能な実験的なセットアップを提供する。
論文 参考訳(メタデータ) (2023-07-28T17:29:49Z) - Offline Robot Reinforcement Learning with Uncertainty-Guided Human
Expert Sampling [11.751910133386254]
バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する上で有望な結果を示している。
本研究では,不確実性推定を用いて人間の実演データを注入する手法を提案する。
実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-16T01:41:59Z) - Neural Active Learning on Heteroskedastic Distributions [29.01776999862397]
ヘテロスケダスティックデータセット上でのアクティブ学習アルゴリズムの破滅的な失敗を実証する。
本稿では,各データポイントにモデル差分スコアリング関数を組み込んで,ノイズの多いサンプルとサンプルクリーンなサンプルをフィルタするアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-02T07:30:19Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Data-efficient Weakly-supervised Learning for On-line Object Detection
under Domain Shift in Robotics [24.878465999976594]
文献では、Deep Convolutional Neural Networks (DCNNs)に基づく多数のオブジェクト検出方法が提案されている。
これらの手法はロボティクスに重要な制限がある:オフラインデータのみに学習するとバイアスが発生し、新しいタスクへの適応を防ぐことができる。
本研究では,弱い教師付き学習がこれらの問題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2020-12-28T16:36:11Z) - On the Robustness of Active Learning [0.7340017786387767]
Active Learningは、機械学習アルゴリズムをトレーニングする上で最も有用なサンプルを特定する方法に関するものだ。
十分な注意とドメイン知識を持っていないことがよくあります。
そこで本研究では,Simpson の多様性指標に基づく新たな "Sum of Squared Logits" 手法を提案する。
論文 参考訳(メタデータ) (2020-06-18T09:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。