論文の概要: Ambiguous Annotations: When is a Pedestrian not a Pedestrian?
- arxiv url: http://arxiv.org/abs/2405.08794v1
- Date: Tue, 14 May 2024 17:44:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 13:08:43.131684
- Title: Ambiguous Annotations: When is a Pedestrian not a Pedestrian?
- Title(参考訳): 曖昧なアノテーション: 歩行者はいつ歩行者ではないのか?
- Authors: Luisa Schwirten, Jannes Scholz, Daniel Kondermann, Janis Keuper,
- Abstract要約: 割り当てられたラベルが正しいかどうかを客観的に決定できるとは限らない。
実験の結果,トレーニングから高度にあいまいなデータを除くと,モデルの性能が向上することがわかった。
不明瞭なインスタンスを安全に取り除き、トレーニングデータの保持された代表性を確保するためには、調査中のデータセットとクラスの特性を理解することが不可欠である。
- 参考スコア(独自算出の注目度): 6.974741712647656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Datasets labelled by human annotators are widely used in the training and testing of machine learning models. In recent years, researchers are increasingly paying attention to label quality. However, it is not always possible to objectively determine whether an assigned label is correct or not. The present work investigates this ambiguity in the annotation of autonomous driving datasets as an important dimension of data quality. Our experiments show that excluding highly ambiguous data from the training improves model performance of a state-of-the-art pedestrian detector in terms of LAMR, precision and F1 score, thereby saving training time and annotation costs. Furthermore, we demonstrate that, in order to safely remove ambiguous instances and ensure the retained representativeness of the training data, an understanding of the properties of the dataset and class under investigation is crucial.
- Abstract(参考訳): 人間のアノテータによってラベル付けされたデータセットは、機械学習モデルのトレーニングとテストに広く使用されている。
近年、研究者はラベルの品質にますます注意を払っている。
しかし、割り当てられたラベルが正しいかどうかを客観的に判断することは必ずしも不可能ではない。
本研究は、データ品質の重要な次元として、自律運転データセットのアノテーションにおけるこの曖昧さについて考察する。
実験により, LAMR, 精度, F1スコアの観点から, 最先端の歩行者検出器のモデル性能を向上し, トレーニング時間とアノテーションのコストを削減できることが確認された。
さらに、不明瞭なインスタンスを安全に除去し、トレーニングデータの保持された代表性を確保するために、調査対象のデータセットとクラスの性質の理解が不可欠であることを示す。
関連論文リスト
- TrajSSL: Trajectory-Enhanced Semi-Supervised 3D Object Detection [59.498894868956306]
Pseudo-labeling approach to semi-supervised learning は教師-学生の枠組みを採用する。
我々は、事前学習した動き予測モデルを活用し、擬似ラベル付きデータに基づいて物体軌跡を生成する。
提案手法は2つの異なる方法で擬似ラベル品質を向上する。
論文 参考訳(メタデータ) (2024-09-17T05:35:00Z) - Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond [38.89457061559469]
本稿では,データセット作成をコストと高効率で自動化する革新的な手法を提案する。
我々は,ラベルの誤り検出,ノイズやバイアスのあるデータによる堅牢な学習など,既存の手法を組み込んだオープンソースソフトウェアを提供する。
ラベルノイズ検出、ラベルノイズ学習、クラス不均衡学習に焦点を当てた3つのベンチマークデータセットを設計する。
論文 参考訳(メタデータ) (2024-08-21T04:45:12Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - A Benchmark Generative Probabilistic Model for Weak Supervised Learning [2.0257616108612373]
アノテーションの負担を軽減するために、弱監視学習アプローチが開発されている。
遅延変数モデル(PLVM)が4つのデータセット間で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-03-31T07:06:24Z) - Classification of datasets with imputed missing values: does imputation
quality matter? [2.7646249774183]
不完全なデータセットでサンプルを分類するのは簡単ではない。
品質を評価するのによく使われる尺度がいかに欠陥があるかを実証する。
本稿では,データ全体の分布をいかに再現するかに焦点をあてた,新たな相違点のクラスを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:58:03Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Enabling On-Device Self-Supervised Contrastive Learning With Selective
Data Contrast [13.563747709789387]
ラベルなし入力ストリームから最も代表的なデータを自動的に選択するフレームワークを提案する。
実験により、精度と学習速度が大幅に向上していることが示された。
論文 参考訳(メタデータ) (2021-06-07T17:04:56Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。