論文の概要: LiDAR dataset distillation within bayesian active learning framework:
Understanding the effect of data augmentation
- arxiv url: http://arxiv.org/abs/2202.02661v1
- Date: Sun, 6 Feb 2022 00:04:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 10:02:00.194409
- Title: LiDAR dataset distillation within bayesian active learning framework:
Understanding the effect of data augmentation
- Title(参考訳): ベイジアンアクティブラーニングフレームワークにおけるLiDARデータセットの蒸留:データ強化の効果の理解
- Authors: Ngoc Phuong Anh Duong and Alexandre Almin and L\'eo Lemari\'e and B
Ravi Kiran
- Abstract要約: アクティブラーニング(AL)は、アノテーションコストとデータセットサイズの削減に対処するため、最近再び注目されている。
本稿では,大規模なセマンティックKITTIデータセットの1/4分の1でALベースのデータセット蒸留を原理的に評価する。
我々は、選択したデータセット構成からのサンプルの60%のみを使用して、データ拡張が完全なデータセット精度を達成することを観察した。
- 参考スコア(独自算出の注目度): 63.20765930558542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving (AD) datasets have progressively grown in size in the past
few years to enable better deep representation learning. Active learning (AL)
has re-gained attention recently to address reduction of annotation costs and
dataset size. AL has remained relatively unexplored for AD datasets, especially
on point cloud data from LiDARs. This paper performs a principled evaluation of
AL based dataset distillation on (1/4th) of the large Semantic-KITTI dataset.
Further on, the gains in model performance due to data augmentation (DA) are
demonstrated across different subsets of the AL loop. We also demonstrate how
DA improves the selection of informative samples to annotate. We observe that
data augmentation achieves full dataset accuracy using only 60\% of samples
from the selected dataset configuration. This provides faster training time and
subsequent gains in annotation costs.
- Abstract(参考訳): 自動運転(ad)データセットは、ここ数年で徐々に大きくなり、より深い表現学習を可能にしている。
アクティブラーニング(al)は最近、アノテーションコストとデータセットのサイズを減らすために注目を集めている。
ALは、ADデータセット、特にLiDARのポイントクラウドデータに対して、比較的調査されていない。
本稿では,大規模semantic-kittiデータセットの (1/4) 上でのal系データセット蒸留の原理評価を行う。
さらに、ALループの異なるサブセット間で、データ拡張(DA)によるモデル性能の向上を示す。
また,daがアノテーションのための情報サンプルの選択をいかに改善するかを示す。
我々は、選択したデータセット構成からのサンプルの60%だけを用いて、データ拡張が完全なデータセット精度を達成することを観察した。
これにより、トレーニング時間が早くなり、アノテーションコストが増加する。
関連論文リスト
- ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - Embarassingly Simple Dataset Distillation [0.0]
本研究は, 2段階最適化問題として直接扱うことにより, その中核におけるデータセットの蒸留に取り組む。
蒸留されたデータの性質を深く掘り下げると、相互相関が明らかになる。
異なるデータ予算にまたがって、ほぼ最適性能のサブセットを含む蒸留データセットを生成するブーピング機構を考案する。
論文 参考訳(メタデータ) (2023-11-13T02:14:54Z) - Evaluating the effect of data augmentation and BALD heuristics on
distillation of Semantic-KITTI dataset [63.20765930558542]
Active Learningは、自律運転データセットにおけるLiDAR知覚タスクに対して、比較的未調査のままである。
本研究では,データセット蒸留やコアサブセット選択のタスクに適用したベイズ能動学習手法を評価する。
また,ベイジアンALを用いたデータセット蒸留におけるデータ拡張の適用効果についても検討した。
論文 参考訳(メタデータ) (2023-02-21T13:56:47Z) - Dataset Distillation: A Comprehensive Review [76.26276286545284]
データセット蒸留(DD)は、トレーニングされたモデルが元のデータセットでトレーニングされたデータセットに匹敵するパフォーマンスを得るために、合成サンプルを含むはるかに小さなデータセットを導出することを目的としている。
本稿ではDDの最近の進歩とその応用について概説する。
論文 参考訳(メタデータ) (2023-01-17T17:03:28Z) - LADA: Look-Ahead Data Acquisition via Augmentation for Active Learning [24.464022706979886]
本稿では,Look-Ahead Data Acquisition by augmentation(LAD)を提案する。
LADAは、1)ラベルなしのデータインスタンスの選択と2)データ拡張によって生成される仮想データインスタンスの両方を考慮する。
LADAの性能は近年の増補ベースラインや買収ベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-11-09T05:21:14Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。