論文の概要: Interactive Label Cleaning with Example-based Explanations
- arxiv url: http://arxiv.org/abs/2106.03922v1
- Date: Mon, 7 Jun 2021 19:11:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 16:13:40.666473
- Title: Interactive Label Cleaning with Example-based Explanations
- Title(参考訳): 実例に基づく対話型ラベルクリーニング
- Authors: Stefano Teso, Andrea Bontempelli, Fausto Giunchiglia, Andrea Passerini
- Abstract要約: 既存のアプローチは、モデルに不審に思われるような、入ってくる例だけを取り除きます。
Cincerは、相互に互換性のない例のペアを特定することによって、新しいデータと過去のデータの両方をクリーン化する新しいアプローチである。
- 参考スコア(独自算出の注目度): 28.441798184304893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle sequential learning under label noise in applications where a human
supervisor can be queried to relabel suspicious examples. Existing approaches
are flawed, in that they only relabel incoming examples that look
``suspicious'' to the model. As a consequence, those mislabeled examples that
elude (or don't undergo) this cleaning step end up tainting the training data
and the model with no further chance of being cleaned. We propose Cincer, a
novel approach that cleans both new and past data by identifying pairs of
mutually incompatible examples. Whenever it detects a suspicious example,
Cincer identifies a counter-example in the training set that -- according to
the model -- is maximally incompatible with the suspicious example, and asks
the annotator to relabel either or both examples, resolving this possible
inconsistency. The counter-examples are chosen to be maximally incompatible, so
to serve as explanations of the model' suspicion, and highly influential, so to
convey as much information as possible if relabeled. Cincer achieves this by
leveraging an efficient and robust approximation of influence functions based
on the Fisher information matrix (FIM). Our extensive empirical evaluation
shows that clarifying the reasons behind the model's suspicions by cleaning the
counter-examples helps acquiring substantially better data and models,
especially when paired with our FIM approximation.
- Abstract(参考訳): ラベルノイズ下での逐次学習を,人間の監督者が不審な事例を問合せできるアプリケーションに適用する。
既存のアプローチには欠陥があり、モデルの `suspicious'' に見えるrelabelのサンプルのみである。
結果として、このクリーニングステップを省略(あるいは実行しない)したラベルのついた例では、トレーニングデータとモデルがクリーニングされる可能性がなくなる。
我々は,新しいデータと過去のデータを相互に互換性のない例のペアを識別する新しい手法であるcincerを提案する。
疑わしい例を検出すると、cincerはトレーニングセット内のカウンターサンプルを特定し、モデルに従って、疑わしい例と最大に互換性がないことを識別し、アノテーションレータにその例をrelabelするか、または両方の例で解決するよう要求する。
反例は、モデルの疑念の説明として機能し、リラベル化すれば可能な限り多くの情報を伝えるために、最大限に互換性のないものとして選択される。
CincerはFisher InformationMatrix (FIM)に基づく影響関数の効率的で堅牢な近似を利用してこれを実現している。
実験結果から, 反例の清掃による疑念の背景にある理由を明らかにすることで, 特にFIM近似と組み合わせた場合, 極めて優れたデータやモデルが得られることがわかった。
関連論文リスト
- Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Hard-label Manifolds: Unexpected Advantages of Query Efficiency for
Finding On-manifold Adversarial Examples [67.23103682776049]
画像分類モデルに対する最近のゼロオーダーのハードラベル攻撃は、ファーストオーダーのグラデーションレベルの代替品に匹敵する性能を示している。
最近、グラデーションレベルの設定では、通常の敵対的な例がデータ多様体から離れ、オンマニホールドの例が実際には一般化エラーであることが示されている。
雑音の多い多様体距離オラクルに基づく情報理論論的議論を提案し、敵の勾配推定を通じて多様体情報を漏洩させる。
論文 参考訳(メタデータ) (2021-03-04T20:53:06Z) - Complementary Pseudo Labels For Unsupervised Domain Adaptation On Person
Re-identification [46.17084786039097]
本稿では,高い精度の隣接する擬似ラベルと高いリコールグループ擬似ラベルを用いて,より優れた特徴埋め込みを学習するための共同学習フレームワークを提案する。
本手法は、教師なし領域適応型re-ID設定の下で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2021-01-29T11:06:36Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z) - Deep k-NN for Noisy Labels [55.97221021252733]
予備モデルのロジット層上での単純な$k$-nearest近傍フィルタリング手法により、ラベルの誤りを除去し、最近提案された多くの手法よりも正確なモデルを生成することができることを示す。
論文 参考訳(メタデータ) (2020-04-26T05:15:36Z) - Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。
ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文 参考訳(メタデータ) (2020-03-24T03:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。