論文の概要: Quantile Activation: Correcting a Failure Mode of ML Models
- arxiv url: http://arxiv.org/abs/2405.11573v3
- Date: Thu, 03 Apr 2025 00:10:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:53:46.928455
- Title: Quantile Activation: Correcting a Failure Mode of ML Models
- Title(参考訳): 量子アクティベーション - MLモデルの障害モードの修正
- Authors: Aditya Challa, Sravan Danda, Laurent Najman, Snehanshu Saha,
- Abstract要約: 本稿では、計算コストを大幅に増大させることなく、この問題に対処する単純なアクティベーション関数、量子アクティベーション(QAct)を提案する。
提案した量子化活性化(QAct)は、その文脈分布内のニューロン活性化の相対的な量子化位置を出力する。
DINOv2は、はるかに大きなネットワークとデータセットでトレーニングされているにも関わらず、このアプローチが予想外にDINOv2(小さかった)を上回っていることが分かりました。
- 参考スコア(独自算出の注目度): 4.035209200949511
- License:
- Abstract: Standard ML models fail to infer the context distribution and suitably adapt. For instance, the learning fails when the underlying distribution is actually a mixture of distributions with contradictory labels. Learning also fails if there is a shift between train and test distributions. Standard neural network architectures like MLPs or CNNs are not equipped to handle this. In this article, we propose a simple activation function, quantile activation (QAct), that addresses this problem without significantly increasing computational costs. The core idea is to "adapt" the outputs of each neuron to its context distribution. The proposed quantile activation (QAct) outputs the relative quantile position of neuron activations within their context distribution, diverging from the direct numerical outputs common in traditional networks. A specific case of the above failure mode is when there is an inherent distribution shift, i.e the test distribution differs slightly from the train distribution. We validate the proposed activation function under covariate shifts, using datasets designed to test robustness against distortions. Our results demonstrate significantly better generalization across distortions compared to conventional classifiers and other adaptive methods, across various architectures. Although this paper presents a proof of concept, we find that this approach unexpectedly outperforms DINOv2 (small), despite DINOv2 being trained with a much larger network and dataset.
- Abstract(参考訳): 標準MLモデルはコンテキスト分布を推測できず、適宜適応する。
例えば、基礎となる分布が実際には、矛盾するラベルと分布の混合である場合、学習は失敗する。
また、列車とテストの分布にシフトがある場合、学習は失敗する。
MLPやCNNのような標準的なニューラルネットワークアーキテクチャは、これを扱うために装備されていない。
本稿では,計算コストを大幅に増大させることなくこの問題に対処する,単純なアクティベーション関数である量子アクティベーション(QAct)を提案する。
中心となる考え方は、それぞれのニューロンの出力をその文脈分布に適応させることである。
提案した量子化活性化(QAct)は、従来のネットワークに共通する直接数値出力から分岐して、その文脈分布内でニューロン活性化の相対的な量子化位置を出力する。
上記の障害モードの特定のケースは、固有の分布シフトがある場合、すなわち、テスト分布が列車分布とわずかに異なる場合である。
歪みに対するロバスト性をテストするために設計されたデータセットを用いて,共変量シフト下での活性化関数の検証を行った。
本結果は,従来の分類器や適応手法と比較して,様々なアーキテクチャにおける歪みの一般化が著しく向上したことを示す。
本稿では概念実証を行うが,DINOv2はより大規模なネットワークとデータセットで訓練されているにもかかわらず,予想外にDINOv2(小)を上回っていることがわかった。
関連論文リスト
- GHOST: Gaussian Hypothesis Open-Set Technique [10.426399605773083]
大規模認識手法の評価は通常、全体的な性能に重点を置いている。
オープンセット認識(OSR)における公平性に対処し,クラスごとのパフォーマンスが劇的に変化することを示す。
Zスコア正規化をロジットに適用し、モデルの期待から逸脱する特徴量の影響を軽減する。
論文 参考訳(メタデータ) (2025-02-05T16:56:14Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Probabilistic Invariant Learning with Randomized Linear Classifiers [24.485477981244593]
表現的かつ不変だがリソースが少ないランダム性と設計モデルをどのように活用するかを示す。
ランダム化アルゴリズムに着想を得て,Randomized Linears (RLC) と呼ばれる二進分類モデルを提案する。
論文 参考訳(メタデータ) (2023-08-08T17:18:04Z) - Neural Dependencies Emerging from Learning Massive Categories [94.77992221690742]
この研究は、大規模画像分類のために学んだニューラルネットワークに関する2つの驚くべき発見を示す。
1) 十分に訓練されたモデルが与えられた場合、いくつかのカテゴリで予測されたロジットは、他のいくつかのカテゴリの予測を線形に組み合わせることで直接得ることができる。
2) 神経依存は1つのモデルに留まらず、2つの独立した学習モデルの間にさえ存在する。
論文 参考訳(メタデータ) (2022-11-21T09:42:15Z) - Revisiting Sparse Convolutional Model for Visual Recognition [40.726494290922204]
本稿では,画像分類のためのスパース畳み込みモデルについて再検討する。
CIFAR-10, CIFAR-100, ImageNetデータセット上でも同様に強力な実験性能を示した。
論文 参考訳(メタデータ) (2022-10-24T04:29:21Z) - Characterizing and Understanding the Behavior of Quantized Models for
Reliable Deployment [32.01355605506855]
量子化対応トレーニングは、標準、逆数、ミックスアップトレーニングよりも安定したモデルを生成することができる。
診断は、しばしばトップ1とトップ2の出力確率に近づき、$Margin$は、相違点を区別する他の不確実性指標よりも優れた指標である。
我々は、量子化されたモデルをさらに研究するための新しいベンチマークとして、コードとモデルをオープンソース化した。
論文 参考訳(メタデータ) (2022-04-08T11:19:16Z) - Contextual Dropout: An Efficient Sample-Dependent Dropout Module [60.63525456640462]
ドロップアウトは、ディープニューラルネットワークのトレーニングプロセスを正規化するシンプルで効果的なモジュールとして実証されています。
単純でスケーラブルなサンプル依存型ドロップアウトモジュールとして,効率的な構造設計によるコンテキスト型ドロップアウトを提案する。
提案手法は,不確実性推定の精度と品質の両面において,ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2021-03-06T19:30:32Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Variational Mixture of Normalizing Flows [0.0]
生成逆数ネットワークオートサイトGAN、変分オートエンコーダオートサイトベイペーパー、およびそれらの変種などの深い生成モデルは、複雑なデータ分布をモデル化するタスクに広く採用されている。
正規化フローはこの制限を克服し、確率密度関数にそのような公式の変更を利用する。
本研究は,混合モデルのコンポーネントとして正規化フローを用い,そのようなモデルのエンドツーエンドトレーニング手順を考案することによって,この問題を克服する。
論文 参考訳(メタデータ) (2020-09-01T17:20:08Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。