論文の概要: A Closer Look at Advantage-Filtered Behavioral Cloning in High-Noise
Datasets
- arxiv url: http://arxiv.org/abs/2110.04698v1
- Date: Sun, 10 Oct 2021 03:55:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 17:56:51.713382
- Title: A Closer Look at Advantage-Filtered Behavioral Cloning in High-Noise
Datasets
- Title(参考訳): 高ノイズデータセットにおけるアドバンテージフィルターによる行動クローニング
- Authors: Jake Grigsby, Yanjun Qi
- Abstract要約: 近年のオフライン強化学習法は、経験の固定されたデータセットから高性能なポリシーを学習することに成功している。
我々の研究は、この手法を、ほぼ全て最適下雑音からなる膨大なデータセットに拡張する能力を評価する。
この修正により、オフラインエージェントは、専門家のアクションが65:1に近いデータセットを使用して、ベンチマークタスクで最先端のポリシーを学ぶことができる。
- 参考スコア(独自算出の注目度): 8.530197034492797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Offline Reinforcement Learning methods have succeeded in learning
high-performance policies from fixed datasets of experience. A particularly
effective approach learns to first identify and then mimic optimal
decision-making strategies. Our work evaluates this method's ability to scale
to vast datasets consisting almost entirely of sub-optimal noise. A thorough
investigation on a custom benchmark helps identify several key challenges
involved in learning from high-noise datasets. We re-purpose prioritized
experience sampling to locate expert-level demonstrations among millions of
low-performance samples. This modification enables offline agents to learn
state-of-the-art policies in benchmark tasks using datasets where expert
actions are outnumbered nearly 65:1.
- Abstract(参考訳): 最近のオフライン強化学習手法は、経験の固定データセットからハイパフォーマンスなポリシーを学ぶことに成功している。
特に効果的なアプローチは、まず最適な意思決定戦略を識別し、模倣することを学ぶ。
本研究は,この手法が,ほぼすべてのサブ最適ノイズからなる巨大なデータセットにスケールする能力を評価する。
カスタムベンチマークに関する詳細な調査は、高ノイズデータセットからの学習に関わるいくつかの重要な課題を特定するのに役立つ。
私たちは、数百万の低パフォーマンスサンプルのエキスパートレベルのデモンストレーションを見つけるために、優先順位付けされた経験サンプルを再利用しました。
この修正により、オフラインエージェントは、専門家のアクションが65:1に近いデータセットを使用して、ベンチマークタスクで最先端のポリシーを学ぶことができる。
関連論文リスト
- One Shot Learning as Instruction Data Prospector for Large Language
Models [111.0897473747819]
Nuggetsは、ワンショット学習を用いて、拡張データセットから高品質な命令データを選択する手法である。
提案手法は,Nuggets が生成した例の上位1%による命令チューニングが,全データセットを使用する従来の手法よりも大幅に優れていたことを実証する。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Benchmarking of Query Strategies: Towards Future Deep Active Learning [0.0]
深層行動学習(DAL)のためのクエリ戦略をベンチマークする
DALは、クエリ戦略によって選択された高品質なサンプルに注釈を付けることで、アノテーションのコストを削減する。
論文 参考訳(メタデータ) (2023-12-10T04:17:16Z) - Learning to Learn for Few-shot Continual Active Learning [10.14157723705624]
メタコンチネンタルアクティブラーニング(Meta-Continual Active Learning)と呼ばれる,シンプルだが効率的な手法を提案する。
メタラーニングと経験リプレイを併用して、タスク間の混乱と破滅的な忘れを解消する。
提案手法の有効性を検証するため,テキスト分類データセットのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-11-07T05:22:11Z) - Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-02-09T06:46:42Z) - Explored An Effective Methodology for Fine-Grained Snake Recognition [8.908667065576632]
我々は,様々なメタ情報を活用し,きめ細かい識別を支援するために,強力なマルチモーダルバックボーンを設計する。
ラベルのないデータセットを最大限に活用するために,自己教師付き学習と教師付き学習共同学習を用いる。
本手法は,個人用および公開用データセットにおいて,それぞれ92.7%,89.4%のマクロf1スコアを達成できる。
論文 参考訳(メタデータ) (2022-07-24T02:19:15Z) - ALLSH: Active Learning Guided by Local Sensitivity and Hardness [98.61023158378407]
本稿では,局所感度と硬度認識獲得機能を備えたラベル付きサンプルの検索を提案する。
本手法は,様々な分類タスクにおいてよく用いられるアクティブラーニング戦略よりも一貫した利得が得られる。
論文 参考訳(メタデータ) (2022-05-10T15:39:11Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。
本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-10-19T16:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。