論文の概要: A Closer Look at Advantage-Filtered Behavioral Cloning in High-Noise
Datasets
- arxiv url: http://arxiv.org/abs/2110.04698v1
- Date: Sun, 10 Oct 2021 03:55:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 17:56:51.713382
- Title: A Closer Look at Advantage-Filtered Behavioral Cloning in High-Noise
Datasets
- Title(参考訳): 高ノイズデータセットにおけるアドバンテージフィルターによる行動クローニング
- Authors: Jake Grigsby, Yanjun Qi
- Abstract要約: 近年のオフライン強化学習法は、経験の固定されたデータセットから高性能なポリシーを学習することに成功している。
我々の研究は、この手法を、ほぼ全て最適下雑音からなる膨大なデータセットに拡張する能力を評価する。
この修正により、オフラインエージェントは、専門家のアクションが65:1に近いデータセットを使用して、ベンチマークタスクで最先端のポリシーを学ぶことができる。
- 参考スコア(独自算出の注目度): 8.530197034492797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Offline Reinforcement Learning methods have succeeded in learning
high-performance policies from fixed datasets of experience. A particularly
effective approach learns to first identify and then mimic optimal
decision-making strategies. Our work evaluates this method's ability to scale
to vast datasets consisting almost entirely of sub-optimal noise. A thorough
investigation on a custom benchmark helps identify several key challenges
involved in learning from high-noise datasets. We re-purpose prioritized
experience sampling to locate expert-level demonstrations among millions of
low-performance samples. This modification enables offline agents to learn
state-of-the-art policies in benchmark tasks using datasets where expert
actions are outnumbered nearly 65:1.
- Abstract(参考訳): 最近のオフライン強化学習手法は、経験の固定データセットからハイパフォーマンスなポリシーを学ぶことに成功している。
特に効果的なアプローチは、まず最適な意思決定戦略を識別し、模倣することを学ぶ。
本研究は,この手法が,ほぼすべてのサブ最適ノイズからなる巨大なデータセットにスケールする能力を評価する。
カスタムベンチマークに関する詳細な調査は、高ノイズデータセットからの学習に関わるいくつかの重要な課題を特定するのに役立つ。
私たちは、数百万の低パフォーマンスサンプルのエキスパートレベルのデモンストレーションを見つけるために、優先順位付けされた経験サンプルを再利用しました。
この修正により、オフラインエージェントは、専門家のアクションが65:1に近いデータセットを使用して、ベンチマークタスクで最先端のポリシーを学ぶことができる。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Robust Offline Imitation Learning from Diverse Auxiliary Data [33.14745744587572]
オフラインの模倣学習は、専門家による一連のデモンストレーションからのみポリシーを学ぶことができる。
最近の研究には、専門家データとともに多数の補助的なデモンストレーションが組み込まれている。
逆補助データ(ROIDA)からのロバストオフライン模倣を提案する。
論文 参考訳(メタデータ) (2024-10-04T17:30:54Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - DIDA: Denoised Imitation Learning based on Domain Adaptation [28.36684781402964]
ノイズのあるデータから学習するためには、模倣者が必要とされるLND(Learning from Noisy Demonstrations)の問題に焦点を当てる。
本稿では、雑音レベルと専門知識レベルを区別する2つの識別器を設計する、ドメイン適応(DIDA)に基づくDenoized Imitation Learningを提案する。
MuJoCoの実験結果は、DIDAが様々な種類のノイズを持つデモから挑戦的な模倣タスクをうまく処理できることを示した。
論文 参考訳(メタデータ) (2024-04-04T11:29:05Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Benchmarking of Query Strategies: Towards Future Deep Active Learning [0.0]
深層行動学習(DAL)のためのクエリ戦略をベンチマークする
DALは、クエリ戦略によって選択された高品質なサンプルに注釈を付けることで、アノテーションのコストを削減する。
論文 参考訳(メタデータ) (2023-12-10T04:17:16Z) - Explored An Effective Methodology for Fine-Grained Snake Recognition [8.908667065576632]
我々は,様々なメタ情報を活用し,きめ細かい識別を支援するために,強力なマルチモーダルバックボーンを設計する。
ラベルのないデータセットを最大限に活用するために,自己教師付き学習と教師付き学習共同学習を用いる。
本手法は,個人用および公開用データセットにおいて,それぞれ92.7%,89.4%のマクロf1スコアを達成できる。
論文 参考訳(メタデータ) (2022-07-24T02:19:15Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z) - Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。
本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-10-19T16:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。