論文の概要: Constraining Representations Yields Models That Know What They Don't
Know
- arxiv url: http://arxiv.org/abs/2208.14488v1
- Date: Tue, 30 Aug 2022 18:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 12:56:20.392844
- Title: Constraining Representations Yields Models That Know What They Don't
Know
- Title(参考訳): 表現の制約は、知らないものを知るモデルになる
- Authors: Joao Monteiro, Pau Rodriguez, Pierre-Andre Noel, Issam Laradji, David
Vazquez
- Abstract要約: トータル・アクティベーション(英: Total Activations、TAC)は、差別的信頼スコアを誘導するための教師なしのアプローチである。
我々は,TACが既存のモデルから抽出した最先端の信頼性スコアと同程度であることを示す。
- 参考スコア(独自算出の注目度): 2.729898906885749
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A well-known failure mode of neural networks corresponds to high confidence
erroneous predictions, especially for data that somehow differs from the
training distribution. Such an unsafe behaviour limits their applicability. To
counter that, we show that models offering accurate confidence levels can be
defined via adding constraints in their internal representations. That is, we
encode class labels as fixed unique binary vectors, or class codes, and use
those to enforce class-dependent activation patterns throughout the model.
Resulting predictors are dubbed Total Activation Classifiers (TAC), and TAC is
used as an additional component to a base classifier to indicate how reliable a
prediction is. Given a data instance, TAC slices intermediate representations
into disjoint sets and reduces such slices into scalars, yielding activation
profiles. During training, activation profiles are pushed towards the code
assigned to a given training instance. At testing time, one can predict the
class corresponding to the code that best matches the activation profile of an
example. Empirically, we observe that the resemblance between activation
patterns and their corresponding codes results in an inexpensive unsupervised
approach for inducing discriminative confidence scores. Namely, we show that
TAC is at least as good as state-of-the-art confidence scores extracted from
existing models, while strictly improving the model's value on the rejection
setting. TAC was also observed to work well on multiple types of architectures
and data modalities.
- Abstract(参考訳): ニューラルネットワークのよく知られた障害モードは、特にトレーニング分布と何らかの異なるデータに対して、高い信頼性の誤った予測に対応している。
このような安全でない行動は、適用性を制限する。
それに対抗するために、正確な信頼度レベルを提供するモデルが、内部表現に制約を加えることで定義できることを示します。
すなわち、クラスラベルを固定されたユニークなバイナリベクタまたはクラスコードとしてエンコードし、モデル全体でクラス依存のアクティベーションパターンを強制するためにそれらを使用します。
結果予測器はTotal Activation Classifiers (TAC)と呼ばれ、TACはベース分類器の追加コンポーネントとして使われ、予測の信頼性を示す。
データインスタンスが与えられた場合、TACは中間表現を非結合集合にスライスし、そのようなスライスをスカラーに減らし、アクティベーションプロファイルを生成する。
トレーニング中、アクティベーションプロファイルは、所定のトレーニングインスタンスに割り当てられたコードにプッシュされる。
テスト時には、サンプルのアクティベーションプロファイルに最もよくマッチするコードに対応するクラスを予測することができる。
実験の結果,アクティベーションパターンとそれに対応する符号の類似性は,識別的信頼度スコアを誘導する安価な非教師なしアプローチをもたらすことがわかった。
すなわち、TACは既存のモデルから抽出した最先端の信頼性スコアと同程度に優れており、拒絶条件におけるモデルの価値は厳密に向上している。
また、TACは複数のタイプのアーキテクチャやデータモダリティでうまく機能することが観察された。
関連論文リスト
- StochCA: A Novel Approach for Exploiting Pretrained Models with Cross-Attention [2.66269503676104]
トランスフォーマーアーキテクチャに特有なクロスアテンション(StochCA)と呼ばれる新しい微調整手法を提案する。
この方法はトランスフォーマーの自己保持機構を変更し、微調整中に事前学習したモデルからの知識を選択的に活用する。
両領域の最先端アプローチに対するStochCAの優位性について検討した。
論文 参考訳(メタデータ) (2024-02-25T13:53:49Z) - uSF: Learning Neural Semantic Field with Uncertainty [0.0]
USFと呼ばれる拡張ベクトル表現の生成のための新しいニューラルネットワークモデルを提案する。
トレーニング用画像の少ない場合、不確実性を定量化するモデルは、そのような機能を持たないモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-12-13T09:34:01Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - KNN-BERT: Fine-Tuning Pre-Trained Models with KNN Classifier [61.063988689601416]
事前学習されたモデルは、クロスエントロピー損失によって最適化された線形分類器を用いて、微調整された下流タスクに広く利用されている。
これらの問題は、同じクラスの類似点と、予測を行う際の矛盾点に焦点を当てた表現を学習することで改善することができる。
本稿では、事前訓練されたモデル微調整タスクにおけるKNearest Neighborsについて紹介する。
論文 参考訳(メタデータ) (2021-10-06T06:17:05Z) - Cold-start Active Learning through Self-supervised Language Modeling [15.551710499866239]
アクティブラーニングは、ラベルに最も重要な例を選択することで、アノテーションのコストを削減することを目的としている。
BERTでは、マスク付き言語モデリング損失に基づく単純な戦略を開発する。
他のベースラインと比較して,本手法はより少ないサンプリングイテレーションと時間で精度が高い。
論文 参考訳(メタデータ) (2020-10-19T14:09:17Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。