論文の概要: Behaviour Discriminator: A Simple Data Filtering Method to Improve
Offline Policy Learning
- arxiv url: http://arxiv.org/abs/2301.11734v1
- Date: Fri, 27 Jan 2023 14:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-30 15:29:09.608758
- Title: Behaviour Discriminator: A Simple Data Filtering Method to Improve
Offline Policy Learning
- Title(参考訳): behavior discriminator:オフラインポリシー学習を改善するための単純なデータフィルタリング方法
- Authors: Qiang Wang, Robert McCarthy, David Cordova Bulens, Kevin McGuinness,
Noel E. O'Connor, Francisco Roldan Sanchez, Stephen J. Redmond
- Abstract要約: 本稿では,環境とのインタラクションを必要とせずに制御政策を学習する問題を考察する。
本稿では,半教師付き学習に基づく行動識別器(BD)の概念,新しいシンプルなデータフィルタリング手法を提案する。
- 参考スコア(独自算出の注目度): 18.19763817325596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies the problem of learning a control policy without the need
for interactions with the environment; instead, learning purely from an
existing dataset. Prior work has demonstrated that offline learning algorithms
(e.g., behavioural cloning and offline reinforcement learning) are more likely
to discover a satisfactory policy when trained using high-quality expert data.
However, many real-world/practical datasets can contain significant proportions
of examples generated using low-skilled agents. Therefore, we propose a
behaviour discriminator (BD) concept, a novel and simple data filtering
approach based on semi-supervised learning, which can accurately discern expert
data from a mixed-quality dataset. Our BD approach was used to pre-process the
mixed-skill-level datasets from the Real Robot Challenge (RRC) III, an open
competition requiring participants to solve several dexterous robotic
manipulation tasks using offline learning methods; the new BD method allowed a
standard behavioural cloning algorithm to outperform other more sophisticated
offline learning algorithms. Moreover, we demonstrate that the new BD
pre-processing method can be applied to a number of D4RL benchmark problems,
improving the performance of multiple state-of-the-art offline reinforcement
learning algorithms.
- Abstract(参考訳): 本稿では,環境とのインタラクションを必要とせず,既存のデータセットから純粋に学習する制御ポリシーの学習問題を考察する。
以前の研究は、オフライン学習アルゴリズム(例えば、振る舞いのクローン化やオフラインの強化学習)が、高品質のエキスパートデータを使ったトレーニングで満足のいくポリシーを見つける可能性が高いことを実証した。
しかしながら、実世界/実践的なデータセットの多くは、低スキルエージェントを使用して生成されたサンプルのかなりの割合を含むことができる。
そこで本研究では,半教師付き学習に基づく新しい,かつシンプルなデータフィルタリング手法である行動判別器(BD)の概念を提案する。
私たちのbdアプローチは、real robot challenge (rrc) iii の混合スキルレベルのデータセットを前処理するために使われました。これは、参加者がオフラインの学習方法を使って、いくつかのデクスターなロボット操作タスクを解決することを必要とするオープンコンペティションです。
さらに,新しいBD前処理手法をD4RLベンチマーク問題に適用し,複数の最先端のオフライン強化学習アルゴリズムの性能を向上させることを実証した。
関連論文リスト
- How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Benchmarking Offline Reinforcement Learning on Real-Robot Hardware [35.29390454207064]
特にデクサラスな操作は、その一般的な形式において未解決の問題である。
本稿では,2つのタスク上の厳密な操作プラットフォームからオフライン学習のための大量のデータを含むベンチマークを提案する。
実システム上でのオフライン強化学習のための再現可能な実験的なセットアップを提供する。
論文 参考訳(メタデータ) (2023-07-28T17:29:49Z) - Offline Robot Reinforcement Learning with Uncertainty-Guided Human
Expert Sampling [11.751910133386254]
バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する上で有望な結果を示している。
本研究では,不確実性推定を用いて人間の実演データを注入する手法を提案する。
実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-16T01:41:59Z) - Neural Active Learning on Heteroskedastic Distributions [29.01776999862397]
ヘテロスケダスティックデータセット上でのアクティブ学習アルゴリズムの破滅的な失敗を実証する。
本稿では,各データポイントにモデル差分スコアリング関数を組み込んで,ノイズの多いサンプルとサンプルクリーンなサンプルをフィルタするアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-02T07:30:19Z) - What Matters in Learning from Offline Human Demonstrations for Robot
Manipulation [64.43440450794495]
ロボット操作のための6つのオフライン学習アルゴリズムについて広範な研究を行う。
我々の研究は、オフラインの人間のデータから学習する際の最も重要な課題を分析します。
人間のデータセットから学ぶ機会を強調します。
論文 参考訳(メタデータ) (2021-08-06T20:48:30Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Low-Regret Active learning [64.36270166907788]
トレーニングに最も有用なラベル付きデータポイントを識別するオンライン学習アルゴリズムを開発した。
私たちの仕事の中心は、予測可能な(簡単な)インスタンスの低い後悔を達成するために調整された睡眠専門家のための効率的なアルゴリズムです。
論文 参考訳(メタデータ) (2021-04-06T22:53:45Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Data-efficient Weakly-supervised Learning for On-line Object Detection
under Domain Shift in Robotics [24.878465999976594]
文献では、Deep Convolutional Neural Networks (DCNNs)に基づく多数のオブジェクト検出方法が提案されている。
これらの手法はロボティクスに重要な制限がある:オフラインデータのみに学習するとバイアスが発生し、新しいタスクへの適応を防ぐことができる。
本研究では,弱い教師付き学習がこれらの問題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2020-12-28T16:36:11Z) - On the Robustness of Active Learning [0.7340017786387767]
Active Learningは、機械学習アルゴリズムをトレーニングする上で最も有用なサンプルを特定する方法に関するものだ。
十分な注意とドメイン知識を持っていないことがよくあります。
そこで本研究では,Simpson の多様性指標に基づく新たな "Sum of Squared Logits" 手法を提案する。
論文 参考訳(メタデータ) (2020-06-18T09:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。