論文の概要: Foundation Model's Embedded Representations May Detect Distribution
Shift
- arxiv url: http://arxiv.org/abs/2310.13836v2
- Date: Fri, 2 Feb 2024 18:07:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:27:18.306073
- Title: Foundation Model's Embedded Representations May Detect Distribution
Shift
- Title(参考訳): ファウンデーションモデルの埋め込み表現は分布変化を検出できる
- Authors: Max Vargas, Adam Tsou, Andrew Engel, Tony Chiang
- Abstract要約: 本稿では,Sentiment140データセットを用いたトランスファー学習のケーススタディを提案する。
自動ラベル付きトレーニングセットの$P$から、Sentiment140の手作業によるキュレートされたテストセットのさまざまな表現を符号化した事前トレーニングベースモデルが多数存在することを示す。
我々は、$P$のトレーニングと$M$のパフォーマンスの測定は一般化のバイアスのある尺度であると主張している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sampling biases can cause distribution shifts between train and test datasets
for supervised learning tasks, obscuring our ability to understand the
generalization capacity of a model. This is especially important considering
the wide adoption of pre-trained foundational neural networks -- whose behavior
remains poorly understood -- for transfer learning (TL) tasks. We present a
case study for TL on the Sentiment140 dataset and show that many pre-trained
foundation models encode different representations of Sentiment140's manually
curated test set $M$ from the automatically labeled training set $P$,
confirming that a distribution shift has occurred. We argue training on $P$ and
measuring performance on $M$ is a biased measure of generalization. Experiments
on pre-trained GPT-2 show that the features learnable from $P$ do not improve
(and in fact hamper) performance on $M$. Linear probes on pre-trained GPT-2's
representations are robust and may even outperform overall fine-tuning,
implying a fundamental importance for discerning distribution shift in
train/test splits for model interpretation.
- Abstract(参考訳): バイアスのサンプリングは、教師付き学習タスクのためのトレインデータセットとテストデータセット間の分散シフトを引き起こし、モデルの一般化能力を理解する能力を妨げる。
これは、トランスファーラーニング(TL)タスクに事前訓練された基礎的ニューラルネットワーク(振る舞いがまだ理解されていない)が広く採用されていることを考えると、特に重要である。
本稿では,Sentiment140データセット上でTLのケーススタディを行い,Sentiment140の手作業によるテストセットの異なる表現をコード化した事前学習基礎モデルの多くを,自動ラベル付きトレーニングセットの$P$から$M$で提供する。
我々は、$P$のトレーニングと$M$のパフォーマンスの測定は一般化のバイアスのある尺度であると主張している。
事前訓練されたGPT-2の実験では、$P$から学習可能な機能は、$M$での(実際は)パフォーマンスを向上しない。
事前訓練されたGPT-2の表現に対する線形プローブは堅牢であり、全体的な微調整よりも優れており、モデル解釈のための列車/テスト分割の分布シフトを識別する上で基本的な重要性を示唆している。
関連論文リスト
- Towards Better Understanding of In-Context Learning Ability from In-Context Uncertainty Quantification [7.869708570399577]
条件付き期待値 $mathbbE[Y|X]$ と条件付き分散 Var$(Y|X)$ の両方を予測する双目的予測タスクを考える。
理論的には、トレーニングされたトランスフォーマーがベイズ最適付近に到達し、トレーニング分布の情報の利用が示唆される。
論文 参考訳(メタデータ) (2024-05-24T00:08:55Z) - Fairness Hub Technical Briefs: Definition and Detection of Distribution Shift [0.5825410941577593]
分散シフトは機械学習タスクにおいて一般的な状況であり、モデルのトレーニングに使用されるデータは、モデルが現実世界に適用されるデータとは異なる。
本稿では,教育環境における分布変化の定義と検出に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-23T05:29:36Z) - Ask Your Distribution Shift if Pre-Training is Right for You [74.18516460467019]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - How Low Can You Go? Surfacing Prototypical In-Distribution Samples for
Unsupervised Anomaly Detection [56.06401423880554]
教師なし異常検出(UAD)は、ラベルなしの配布データのみをトレーニングすることで、大規模なラベル付け作業を軽減する。
ごく少数のトレーニングサンプルを使用することで、トレーニングデータセット全体のトレーニングと比較して、すでに一致し、場合によっては異常検出も改善できることが示されています。
論文 参考訳(メタデータ) (2023-12-06T15:30:47Z) - TEA: Test-time Energy Adaptation [67.4574269851666]
テスト時間適応(TTA)は、テストデータがトレーニング分布から分岐する際のモデル一般化性を改善することを目的としている。
本稿では,対象データ分布に対するモデルによる認識を高めるための,新しいエネルギーベース視点を提案する。
論文 参考訳(メタデータ) (2023-11-24T10:49:49Z) - Transductive conformal inference with adaptive scores [3.591224588041813]
トランスダクティブな設定では、テストのサンプルとして$m$の新たなポイントが決定されます。
本研究はP'olya urnモデルに従い, 実験分布関数の濃度不等式を確立することを目的とする。
本研究では,2つの機械学習タスクに対して一様かつ不確率な保証を行うことにより,これらの理論的結果の有用性を示す。
論文 参考訳(メタデータ) (2023-10-27T12:48:30Z) - Statistical Foundations of Prior-Data Fitted Networks [0.7614628596146599]
近年,機械学習の新しいパラダイムとしてPFNが提案されている。
本稿では,PFNの理論的基盤を確立し,その挙動を制御している統計的メカニズムを照らす。
論文 参考訳(メタデータ) (2023-05-18T16:34:21Z) - Diagnosing Model Performance Under Distribution Shift [9.143551270841858]
予測モデルは、トレーニングディストリビューションとは異なるターゲットディストリビューションにデプロイされた場合、パフォーマンスが良くない。
提案手法は,1)トレーニングの難易度が高いが頻繁な例の増加,2)特徴と成果の関係の変化,3)トレーニング中の頻度の低い例や見当たらない例のパフォーマンス低下など,パフォーマンスの低下を用語に分解する。
論文 参考訳(メタデータ) (2023-03-03T15:27:16Z) - Partial and Asymmetric Contrastive Learning for Out-of-Distribution
Detection in Long-Tailed Recognition [80.07843757970923]
既存のOOD検出手法は,トレーニングセットが長距離分布している場合,大幅な性能劣化に悩まされていることを示す。
本稿では,部分的および非対称的な教師付きコントラスト学習(PASCL)を提案する。
我々の手法は従来の最先端の手法を1.29%$, $1.45%$, $0.69%$異常検出偽陽性率(FPR)と$3.24%$, 4,.06%$, 7,89%$in-distributionで上回ります。
論文 参考訳(メタデータ) (2022-07-04T01:53:07Z) - Test-time Batch Normalization [61.292862024903584]
ディープニューラルネットワークは、トレーニングとテストの間のデータ分散シフトに悩まされることが多い。
トレーニングプロセスにおけるバッチ正規化(BN)を再検討し、テスト時の最適化に有効な2つの重要な洞察を明らかにします。
本稿では,エントロピー損失を最小限に抑えて,テスト中に最適化された新しいBN層設計GpreBNを提案する。
論文 参考訳(メタデータ) (2022-05-20T14:33:39Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。