論文の概要: Gray Learning from Non-IID Data with Out-of-distribution Samples
- arxiv url: http://arxiv.org/abs/2206.09375v2
- Date: Sat, 4 Nov 2023 07:21:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 01:55:58.785580
- Title: Gray Learning from Non-IID Data with Out-of-distribution Samples
- Title(参考訳): 分布サンプルを用いた非iidデータからのグレイ学習
- Authors: Zhilin Zhao and Longbing Cao and Chang-Dong Wang
- Abstract要約: 専門家が注釈を付けたとしても、トレーニングデータの完全性は保証されていない。
我々は,基本真実と相補的ラベルを両立させる新しいアプローチであるtextitGray Learningを導入する。
統計学習理論における我々のアプローチを基礎として、一般化誤差の境界を導出し、GLが非IID設定でも厳密な制約を達成できることを実証する。
- 参考スコア(独自算出の注目度): 45.788789553551176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integrity of training data, even when annotated by experts, is far from
guaranteed, especially for non-IID datasets comprising both in- and
out-of-distribution samples. In an ideal scenario, the majority of samples
would be in-distribution, while samples that deviate semantically would be
identified as out-of-distribution and excluded during the annotation process.
However, experts may erroneously classify these out-of-distribution samples as
in-distribution, assigning them labels that are inherently unreliable. This
mixture of unreliable labels and varied data types makes the task of learning
robust neural networks notably challenging. We observe that both in- and
out-of-distribution samples can almost invariably be ruled out from belonging
to certain classes, aside from those corresponding to unreliable ground-truth
labels. This opens the possibility of utilizing reliable complementary labels
that indicate the classes to which a sample does not belong. Guided by this
insight, we introduce a novel approach, termed \textit{Gray Learning} (GL),
which leverages both ground-truth and complementary labels. Crucially, GL
adaptively adjusts the loss weights for these two label types based on
prediction confidence levels. By grounding our approach in statistical learning
theory, we derive bounds for the generalization error, demonstrating that GL
achieves tight constraints even in non-IID settings. Extensive experimental
evaluations reveal that our method significantly outperforms alternative
approaches grounded in robust statistics.
- Abstract(参考訳): 専門家がアノテートしても、トレーニングデータの完全性は保証されていない。特に、in-of-distriionサンプルとout-of-distriionサンプルで構成される非IIDデータセットに対して。
理想的なシナリオでは、サンプルの大部分は分散内であり、意味的に逸脱したサンプルは分散外と識別され、アノテーションプロセス中に除外される。
しかし、専門家は誤ってこれらの分布外サンプルを分布内として分類し、本質的に信頼できないラベルを割り当てることがある。
この信頼できないラベルとさまざまなデータ型の組み合わせは、堅牢なニューラルネットワークを学習するタスクを特に困難にしている。
信頼性の低い基底トラスラベルを別にすれば、分布内および分布外の両方のサンプルは、必ず特定のクラスに属するものから除外できる。
これは、サンプルが属していないクラスを示す信頼できる補完ラベルを利用する可能性を開く。
この知見に導かれて,本研究では,基礎的真理と相補的ラベルの両面を活用した新しいアプローチである「textit{Gray Learning} (GL)」を導入する。
重要なことに、GLは予測信頼度に基づいてこれらの2つのラベルの損失重みを適応的に調整する。
統計学習理論のアプローチを基礎として一般化誤差の境界を導出し,非IID設定においてもGLが厳密な制約を達成できることを実証する。
実験結果から,本手法はロバストな統計に基づく代替手法よりも優れていることがわかった。
関連論文リスト
- Self-Knowledge Distillation for Learning Ambiguity [11.755814660833549]
最近の言語モデルは、その正確さを考慮せずに単一のラベルを過度に予測することが多い。
本稿では,ラベル分布をより正確に学習できる新しい自己知識蒸留法を提案する。
本手法を多種多様なNLUベンチマークデータセットで検証し,実験結果から,より優れたラベル分布を生成する上での有効性を実証した。
論文 参考訳(メタデータ) (2024-06-14T05:11:32Z) - Virtual Category Learning: A Semi-Supervised Learning Method for Dense
Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。
仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。
私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文 参考訳(メタデータ) (2023-12-02T16:23:52Z) - Learning with Complementary Labels Revisited: The Selected-Completely-at-Random Setting Is More Practical [66.57396042747706]
補完ラベル学習は、弱教師付き学習問題である。
均一分布仮定に依存しない一貫したアプローチを提案する。
相補的なラベル学習は、負のラベル付きバイナリ分類問題の集合として表現できる。
論文 参考訳(メタデータ) (2023-11-27T02:59:17Z) - The Decaying Missing-at-Random Framework: Doubly Robust Causal Inference
with Partially Labeled Data [10.021381302215062]
現実のシナリオでは、データ収集の制限によって部分的にラベル付けされたデータセットが生成されることが多く、信頼性の高い因果推論の描画が困難になる。
半パラメトリック(SS)や欠落したデータ文学における従来のアプローチは、これらの複雑さを適切に扱えないため、偏りのある見積もりにつながる可能性がある。
このフレームワークは、高次元設定における欠落した結果に対処し、選択バイアスを考慮に入れます。
論文 参考訳(メタデータ) (2023-05-22T07:37:12Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。