論文の概要: Intermediate Layer Classifiers for OOD generalization
- arxiv url: http://arxiv.org/abs/2504.05461v1
- Date: Mon, 07 Apr 2025 19:50:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:29:15.328106
- Title: Intermediate Layer Classifiers for OOD generalization
- Title(参考訳): OOD一般化のための中間層分類器
- Authors: Arnas Uselis, Seong Joon Oh,
- Abstract要約: 本研究では,最終層表現を用いたアウト・オブ・ディストリビューション(OOD)の一般化について考察する。
中間層表現は、直列層よりもかなり優れた一般化をもたらすことがよく見いだされる。
解析の結果,中間層は垂直層に比べて分布シフトに敏感でないことが示唆された。
- 参考スコア(独自算出の注目度): 17.13749013546228
- License:
- Abstract: Deep classifiers are known to be sensitive to data distribution shifts, primarily due to their reliance on spurious correlations in training data. It has been suggested that these classifiers can still find useful features in the network's last layer that hold up under such shifts. In this work, we question the use of last-layer representations for out-of-distribution (OOD) generalisation and explore the utility of intermediate layers. To this end, we introduce \textit{Intermediate Layer Classifiers} (ILCs). We discover that intermediate layer representations frequently offer substantially better generalisation than those from the penultimate layer. In many cases, zero-shot OOD generalisation using earlier-layer representations approaches the few-shot performance of retraining on penultimate layer representations. This is confirmed across multiple datasets, architectures, and types of distribution shifts. Our analysis suggests that intermediate layers are less sensitive to distribution shifts compared to the penultimate layer. These findings highlight the importance of understanding how information is distributed across network layers and its role in OOD generalisation, while also pointing to the limits of penultimate layer representation utility. Code is available at https://github.com/oshapio/intermediate-layer-generalization
- Abstract(参考訳): 深層分類器は、主にトレーニングデータの急激な相関に依存するため、データ分散シフトに敏感であることが知られている。
これらの分類器は、そのようなシフトを保ちながら、ネットワークの最後の層で有用な特徴を見出すことができることが示唆されている。
本研究は, 分配外分布(OOD)一般化における最終層表現の使用に疑問を呈し, 中間層の有用性について検討する。
この目的のために、<textit{Intermediate Layer Classifiers} (ILCs)を紹介します。
中間層表現は、直列層よりもはるかに優れた一般化をもたらすことがよく見いだされる。
多くの場合、先行層表現を用いたゼロショットOOD一般化は、最小層表現による再トレーニングの少数ショット性能にアプローチする。
これは、複数のデータセット、アーキテクチャ、分散シフトのタイプにまたがって確認される。
解析の結果,中間層は垂直層に比べて分布シフトに敏感でないことが示唆された。
これらの知見は、情報がどのようにネットワーク層に分散されているかを理解することの重要性と、OOD一般化におけるその役割を強調し、また、垂直層表現ユーティリティの限界を指摘する。
コードはhttps://github.com/oshapio/intermediate-layer- generalizationで入手できる。
関連論文リスト
- Leveraging Intermediate Representations for Better Out-of-Distribution Detection [3.903824667492754]
現実世界のアプリケーションでは、機械学習モデルは、安全でない決定を防ぐために、確実にアウト・オブ・ディストリビューション(OoD)サンプルを検出しなければなりません。
中間層の識別能力を分析し,OoD検出に有効であることを示す。
複数のデータセットにまたがって総合的な評価を行うことで,中間層アクティベーションによりOoD検出性能が向上することを示す。
論文 参考訳(メタデータ) (2025-02-18T13:38:19Z) - Layer by Layer: Uncovering Hidden Representations in Language Models [28.304269706993942]
中間層がよりリッチな表現をエンコードできることを示し、ダウンストリームタスクの幅広いパフォーマンスを改善することがよくある。
本フレームワークでは,各モデル層が情報圧縮と信号保存のバランスをとる方法を強調している。
これらの知見は、最終層埋め込みに標準的焦点をあて、モデル解析と最適化のための新しい方向を開くことに挑戦する。
論文 参考訳(メタデータ) (2025-02-04T05:03:42Z) - A separability-based approach to quantifying generalization: which layer is best? [0.0]
未確認データへの一般化は、ディープラーニングの分類と基礎モデルではよく理解されていない。
サンプル領域を表すネットワークのキャパシティを評価するための新しい手法を提案する。
i) 高い分類精度は高い一般化可能性を示すものではなく、(ii) モデルの深い層が必ずしも最良を一般化するとは限らない。
論文 参考訳(メタデータ) (2024-05-02T17:54:35Z) - Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Hidden Classification Layers: Enhancing linear separability between
classes in neural networks layers [0.0]
トレーニング手法の深層ネットワーク性能への影響について検討する。
本稿では,全てのネットワークレイヤの出力を含むエラー関数を誘導するニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-09T10:52:49Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - An evidential classifier based on Dempster-Shafer theory and deep
learning [6.230751621285322]
Dempster-Shafer(DS)理論に基づく新しい分類システムと、集合値分類のための畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
画像認識,信号処理,セマンティック-リレーションシップ分類タスクに関する実験では,深部CNN,DS層,期待されるユーティリティ層の組み合わせにより,分類精度の向上が図られている。
論文 参考訳(メタデータ) (2021-03-25T01:29:05Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z) - Convolutional Networks with Dense Connectivity [59.30634544498946]
Dense Convolutional Network (DenseNet)を導入し、フィードフォワード方式で各レイヤを他のすべてのレイヤに接続する。
各レイヤについて、先行するすべてのレイヤのフィーチャーマップをインプットとして使用し、それ自身のフィーチャーマップをその後のすべてのレイヤへのインプットとして使用します。
提案したアーキテクチャを、4つの高度に競争力のあるオブジェクト認識ベンチマークタスクで評価する。
論文 参考訳(メタデータ) (2020-01-08T06:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。