論文の概要: Imitation Learning Datasets: A Toolkit For Creating Datasets, Training
Agents and Benchmarking
- arxiv url: http://arxiv.org/abs/2403.00550v1
- Date: Fri, 1 Mar 2024 14:18:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:03:36.301157
- Title: Imitation Learning Datasets: A Toolkit For Creating Datasets, Training
Agents and Benchmarking
- Title(参考訳): imitation Learning Datasets: データセットの作成、トレーニングエージェント、ベンチマークのためのツールキット
- Authors: Nathan Gavenski, Michael Luck, Odinaldo Rodrigues
- Abstract要約: 模倣学習分野は、タスク内のエージェントを訓練するために専門家データを必要とする。
多くの場合、この学習アプローチは利用可能なデータの欠如に悩まされる。
この作業は、Imitation Learningデータセットを作成することで、これらの問題に対処することを目的としている。
- 参考スコア(独自算出の注目度): 0.9944647907864256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning field requires expert data to train agents in a task. Most
often, this learning approach suffers from the absence of available data, which
results in techniques being tested on its dataset. Creating datasets is a
cumbersome process requiring researchers to train expert agents from scratch,
record their interactions and test each benchmark method with newly created
data. Moreover, creating new datasets for each new technique results in a lack
of consistency in the evaluation process since each dataset can drastically
vary in state and action distribution. In response, this work aims to address
these issues by creating Imitation Learning Datasets, a toolkit that allows
for: (i) curated expert policies with multithreaded support for faster dataset
creation; (ii) readily available datasets and techniques with precise
measurements; and (iii) sharing implementations of common imitation learning
techniques. Demonstration link:
https://nathangavenski.github.io/#/il-datasets-video
- Abstract(参考訳): 模倣学習分野は、タスク内のエージェントを訓練するために専門家データを必要とする。
多くの場合、この学習アプローチは利用可能なデータの欠如に悩まされ、その結果、データセット上でテストされるテクニックが生まれる。
データセットの作成は、研究者が専門家エージェントをゼロからトレーニングし、インタラクションを記録し、新しく作成されたデータで各ベンチマークメソッドをテストするという面倒なプロセスである。
さらに、新しいテクニックごとに新しいデータセットを作成すると、各データセットが状態とアクションの分布で大きく変化するため、評価プロセスの一貫性が失われる。
これに応えて、本研究はImitation Learning Datasetsを作成することで、これらの問題に対処することを目指している。
(i)より高速なデータセット作成のためのマルチスレッドサポートを備えた専門家ポリシーのキュレーション
(ii)正確な測定を行うための容易に利用可能なデータセット及び技術
(iii)共通模倣学習手法の実装の共有
デモリンク: https://nathangavenski.github.io/#/il-datasets-video
関連論文リスト
- Better Synthetic Data by Retrieving and Transforming Existing Datasets [63.875064274379824]
我々は、データセットの自動生成を改善するために、公開データセットをよりよく利用する方法であるDataTuneを紹介した。
多様な言語ベースのタスクセットでは、DataTuneによる微調整言語モデルが改善され、ベースラインが49%向上する。
データセット変換は、多くのタスクにおいて生成されたデータの多様性と難易度を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-22T17:15:32Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - FaceFusion: Exploiting Full Spectrum of Multiple Datasets [4.438240667468304]
我々はFaceFusionという新しいトレーニング手法を提案する。
ビューを使用して埋め込みネットワークを同時にトレーニングしながら、アイデンティティの衝突によって達成されない、さまざまなデータセットの融合ビューを生成する。
統合データセットの統一ビューを使用することで、組み込みネットワークはデータセットのスペクトル全体に対してトレーニングされ、顕著なパフォーマンス向上につながる。
論文 参考訳(メタデータ) (2023-05-24T00:51:04Z) - Designing Data: Proactive Data Collection and Iteration for Machine
Learning [12.295169687537395]
データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。
データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルのトレーニングを追跡および管理する新しい方法が必要である。
論文 参考訳(メタデータ) (2023-01-24T21:40:29Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - Cross-Dataset Collaborative Learning for Semantic Segmentation [17.55660581677053]
我々は、Cross-Dataset Collaborative Learning (CDCL) と呼ばれる、単純で柔軟で汎用的なセマンティックセグメンテーション手法を提案する。
複数のラベル付きデータセットを付与することで、各データセット上の特徴表現の一般化と識別を改善することを目指しています。
単一データセットとクロスデータセットの設定で,Cityscapes,BDD100K,CamVid,COCO Stuffという4つの多様なデータセットに対して,広範な評価を行う。
論文 参考訳(メタデータ) (2021-03-21T09:59:47Z) - Overcoming Noisy and Irrelevant Data in Federated Learning [13.963024590508038]
フェデレーション学習は、クライアントデバイスが収集したローカルデータから、機械学習モデルを分散的にトレーニングする効果的な方法である。
そこで我々は,小さなベンチマークデータセットに基づいてトレーニングされたベンチマークモデルを用いて,関連するデータを分散的に選択する手法を提案する。
提案手法の有効性は,多数のクライアントを持つシミュレーションシステムにおいて,複数の実世界の画像データセット上で評価される。
論文 参考訳(メタデータ) (2020-01-22T22:28:47Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。