論文の概要: Quantile Activation: Correcting a Failure Mode of ML Models
- arxiv url: http://arxiv.org/abs/2405.11573v2
- Date: Tue, 24 Dec 2024 05:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 19:23:17.40756
- Title: Quantile Activation: Correcting a Failure Mode of ML Models
- Title(参考訳): 量子アクティベーション - MLモデルの障害モードの修正
- Authors: Aditya Challa, Sravan Danda, Laurent Najman, Snehanshu Saha,
- Abstract要約: 機械学習モデルの確立された障害モードは、同じ機能がクラス0とクラス1に属する可能性が高い場合に発生する。
可解ケースは、0 と 1 の確率が文脈分布によって変化するときに現れる。
本稿では、計算コストを大幅に増大させることなく、この問題に対処する単純なアクティベーション関数、量子アクティベーション(QACT)を提案する。
- 参考スコア(独自算出の注目度): 4.035209200949511
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: An established failure mode for machine learning models occurs when the same features are equally likely to belong to class 0 and class 1. In such cases, existing ML models cannot correctly classify the sample. However, a solvable case emerges when the probabilities of class 0 and 1 vary with the context distribution. To the best of our knowledge, standard neural network architectures like MLPs or CNNs are not equipped to handle this. In this article, we propose a simple activation function, quantile activation (QACT), that addresses this problem without significantly increasing computational costs. The core idea is to adapt the outputs of each neuron to its context distribution. The proposed quantile activation, QACT, produces the relative quantile of the sample in its context distribution, rather than the actual values, as in traditional networks. A practical example where the same sample can have different labels arises in cases of inherent distribution shift. We validate the proposed activation function under such shifts, using datasets designed to test robustness against distortions : CIFAR10C, CIFAR100C, MNISTC, TinyImagenetC. Our results demonstrate significantly better generalization across distortions compared to conventional classifiers, across various architectures. Although this paper presents a proof of concept, we find that this approach unexpectedly outperforms DINOv2 (small) under large distortions, despite DINOv2 being trained with a much larger network and dataset.
- Abstract(参考訳): 機械学習モデルの確立された障害モードは、同じ機能がクラス0とクラス1に属する可能性が高い場合に発生する。
このような場合、既存のMLモデルはサンプルを正しく分類することはできない。
しかし、クラス 0 と 1 の確率が文脈分布によって異なるとき、解決可能なケースが現れる。
私たちの知る限りでは、MPPやCNNのような標準的なニューラルネットワークアーキテクチャは、これを扱う能力を持っていません。
本稿では,計算コストを大幅に増大させることなくこの問題に対処する,単純なアクティベーション関数である量子アクティベーション(QACT)を提案する。
中心となる考え方は、それぞれのニューロンの出力を文脈分布に適応させることである。
提案した量子化活性化QACTは、従来のネットワークのように実際の値ではなく、そのコンテキスト分布におけるサンプルの相対量子化を生成する。
同じサンプルが異なるラベルを持つことができる実用的な例は、固有の分布シフトの場合に生じる。
CIFAR10C, CIFAR100C, MNISTC, TinyImagenetC, CIFAR10C, CIFAR100C, CIFAR10C, CIFAR100C, CIFAR10C, TinyImagenetC, CIFAR10C, CIFAR10C, CIFAR10C, CIFAR100C, CIFAR100C, CIFAR10C, CIFAR100C, CIFAR10C, CIFAR100C, TinyImagenetC, CIFAR10C, TinyImagenetC, CIFAR10C, Tiny ImagenetC, CIF, C
本結果は,従来の分類器と比較して,様々なアーキテクチャにおいて,歪みの一般化が著しく向上したことを示す。
本論文では,DINOv2がネットワークとデータセットでトレーニングされているにもかかわらず,DINOv2(小)よりも予期せず大きな歪みで性能が向上することが示唆された。
関連論文リスト
- Learning Neural Networks with Distribution Shift: Efficiently Certifiable Guarantees [13.936051653540144]
まず第一にあげよう。
分散シフトでニューラルネットワークを学習するための効率的なアルゴリズム。
私たちはTestable Learning with Distribution Shiftフレームワークで作業しています。
論文 参考訳(メタデータ) (2025-02-22T00:48:03Z) - Generative Conditional Distributions by Neural (Entropic) Optimal Transport [12.152228552335798]
本稿では,条件分布の生成モデル学習を目的とした,ニューラルエントロピー最適輸送手法を提案する。
提案手法は,2つのニューラルネットワークのミニマックストレーニングに依存する。
実世界のデータセットを用いた実験では,現状条件分布学習法と比較して,アルゴリズムの有効性が示された。
論文 参考訳(メタデータ) (2024-06-04T13:45:35Z) - FedUV: Uniformity and Variance for Heterogeneous Federated Learning [5.9330433627374815]
フェデレーション学習は、広く分散されたデータでニューラルネットワークをトレーニングするための有望なフレームワークである。
最近の研究によると、ネットワークの最終層が局所バイアスの傾向が最も大きいためである。
凍結重量が一定の特異値をもたらすという観測によって動機付けられた重みにSVDを適用して分類器の訓練力学を考察する。
論文 参考訳(メタデータ) (2024-02-27T15:53:15Z) - An Upper Bound for the Distribution Overlap Index and Its Applications [18.481370450591317]
本稿では,2つの確率分布間の重なり関数に対する計算容易な上限を提案する。
提案した境界は、一級分類と領域シフト解析においてその値を示す。
私たちの研究は、重複ベースのメトリクスの応用を拡大する大きな可能性を示しています。
論文 参考訳(メタデータ) (2022-12-16T20:02:03Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - GFlowOut: Dropout with Generative Flow Networks [76.59535235717631]
モンテカルロ・ドロップアウトは近似推論の比較的安価な方法として広く利用されている。
最近の研究は、ドロップアウトマスクを潜伏変数と見なすことができ、変動推論で推測できることを示している。
GFlowOutleveragesは、最近提案されたジェネレーティブフローネットワーク(GFlowNets)の確率的フレームワークを使用して、ドロップアウトマスク上の後部分布を学習する。
論文 参考訳(メタデータ) (2022-10-24T03:00:01Z) - Understanding the Covariance Structure of Convolutional Filters [86.0964031294896]
最近では、ConvMixerやConvNeXtのようなViTにインスパイアされた畳み込みネットワークは、注目すべき構造を持つ大カーネル深度畳み込みを使用している。
まず,このような学習フィルタの共分散行列が高度に構造化されていることを観測し,より大規模なネットワークを効果的に初期化するために,小さなネットワークから計算した共分散が用いられることを発見した。
論文 参考訳(メタデータ) (2022-10-07T15:59:13Z) - Stochastic Deep Networks with Linear Competing Units for Model-Agnostic
Meta-Learning [4.97235247328373]
本研究は,LWTA(Local winner-takes-all)アクティベーションを伴うディープネットワークを考慮したメタラーニング(ML)に対処する。
このタイプのネットワークユニットは、ユニットが1つのユニットだけがゼロでない出力を生成するブロックに編成されるため、各モデルレイヤからスパース表現が生成される。
提案手法は,数ショット画像の分類と回帰実験における最先端の予測精度と,アクティブな学習環境における予測誤差の低減を実現する。
論文 参考訳(メタデータ) (2022-08-02T16:19:54Z) - Discovering Invariant Rationales for Graph Neural Networks [104.61908788639052]
グラフニューラルネットワーク(GNN)の固有の解釈可能性とは、入力グラフの特徴の小さなサブセットを見つけることである。
本稿では,本質的に解釈可能なGNNを構築するために,不変理性(DIR)を発見するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2022-01-30T16:43:40Z) - Self-Ensembling GAN for Cross-Domain Semantic Segmentation [107.27377745720243]
本稿では,セマンティックセグメンテーションのためのクロスドメインデータを利用した自己理解型生成逆数ネットワーク(SE-GAN)を提案する。
SE-GANでは、教師ネットワークと学生ネットワークは、意味分節マップを生成するための自己組織化モデルを構成する。
その単純さにもかかわらず、SE-GANは敵の訓練性能を大幅に向上させ、モデルの安定性を高めることができる。
論文 参考訳(メタデータ) (2021-12-15T09:50:25Z) - Distribution Mismatch Correction for Improved Robustness in Deep Neural
Networks [86.42889611784855]
正規化法は ノイズや入力の腐敗に関して 脆弱性を増大させる
本稿では,各層の活性化分布に適応する非教師なし非パラメトリック分布補正法を提案する。
実験により,提案手法は画像劣化の激しい影響を効果的に低減することを示した。
論文 参考訳(メタデータ) (2021-10-05T11:36:25Z) - Training on Test Data with Bayesian Adaptation for Covariate Shift [96.3250517412545]
ディープニューラルネットワークは、信頼できない不確実性推定で不正確な予測を行うことが多い。
分布シフトの下でのラベルなし入力とモデルパラメータとの明確に定義された関係を提供するベイズモデルを導出する。
本手法は精度と不確実性の両方を向上することを示す。
論文 参考訳(メタデータ) (2021-09-27T01:09:08Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Understanding Anomaly Detection with Deep Invertible Networks through
Hierarchies of Distributions and Features [4.25227087152716]
畳み込みネットワークは、任意の自然言語データセットでトレーニングされた場合、同様の低レベルの特徴分布を学習する。
inlier とoutlier の識別的特徴が高いレベルにある場合、異常検出は特に困難になる。
モデルバイアスとドメインが高レベルの差を検出する前に負の影響を除去する2つの方法を提案する。
論文 参考訳(メタデータ) (2020-06-18T20:56:14Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z) - Embedding Propagation: Smoother Manifold for Few-Shot Classification [131.81692677836202]
本稿では, 組込み伝搬を非教師なし非パラメトリック正規化器として, 数ショット分類における多様体平滑化に用いることを提案する。
埋め込み伝播がより滑らかな埋め込み多様体を生み出すことを実証的に示す。
複数の半教師付き学習シナリオにおいて,埋め込み伝搬によりモデルの精度が最大16%向上することを示す。
論文 参考訳(メタデータ) (2020-03-09T13:51:09Z) - Regularizing activations in neural networks via distribution matching
with the Wasserstein metric [9.442063850095808]
本稿では,標準正規分布に従う活性化を促す予測誤差関数正規化損失(PER)を提案する。
ランダムに1次元空間に活性化を投影し、投影された空間の正規化損失を計算する。
画像分類タスクと単語レベルの言語モデリングタスクについて,提案手法の評価を行った。
論文 参考訳(メタデータ) (2020-02-13T06:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。