論文の概要: ViTNF: Leveraging Neural Fields to Boost Vision Transformers in Generalized Category Discovery
- arxiv url: http://arxiv.org/abs/2506.02367v1
- Date: Tue, 03 Jun 2025 02:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.196768
- Title: ViTNF: Leveraging Neural Fields to Boost Vision Transformers in Generalized Category Discovery
- Title(参考訳): ViTNF: 一般カテゴリー発見におけるビジョントランスフォーマーの強化にニューラルネットワークを活用する
- Authors: Jiayi Su, Dequan Jin,
- Abstract要約: 一般カテゴリー発見(GCD)は、オープンワールド認識において一般的な課題である。
事前トレーニング、メタトレーニング、微調整を活用することで、ViTは優れた数ショット学習機能を実現する。
本稿では,頭部をニューラルネットワークに置き換えた新しいアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 1.1970409518725493
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generalized category discovery (GCD) is a highly popular task in open-world recognition, aiming to identify unknown class samples using known class data. By leveraging pre-training, meta-training, and fine-tuning, ViT achieves excellent few-shot learning capabilities. Its MLP head is a feedforward network, trained synchronously with the entire network in the same process, increasing the training cost and difficulty without fully leveraging the power of the feature extractor. This paper proposes a new architecture by replacing the MLP head with a neural field-based one. We first present a new static neural field function to describe the activity distribution of the neural field and then use two static neural field functions to build an efficient few-shot classifier. This neural field-based (NF) classifier consists of two coupled static neural fields. It stores the feature information of support samples by its elementary field, the known categories by its high-level field, and the category information of support samples by its cross-field connections. We replace the MLP head with the proposed NF classifier, resulting in a novel architecture ViTNF, and simplify the three-stage training mode by pre-training the feature extractor on source tasks and training the NF classifier with support samples in meta-testing separately, significantly reducing ViT's demand for training samples and the difficulty of model training. To enhance the model's capability in identifying new categories, we provide an effective algorithm to determine the lateral interaction scale of the elementary field. Experimental results demonstrate that our model surpasses existing state-of-the-art methods on CIFAR-100, ImageNet-100, CUB-200, and Standard Cars, achieving dramatic accuracy improvements of 19\% and 16\% in new and all classes, respectively, indicating a notable advantage in GCD.
- Abstract(参考訳): 一般カテゴリー発見(GCD)は,未知のクラスサンプルを既知のクラスデータを用いて識別することを目的とした,オープンワールド認識において非常に人気のある課題である。
事前トレーニング、メタトレーニング、微調整を活用することで、ViTは優れた数ショット学習機能を実現する。
MLPヘッドはフィードフォワードネットワークであり、同じプロセスでネットワーク全体を同期的にトレーニングし、特徴抽出器のパワーを完全に活用することなく、トレーニングコストと難易度を増大させる。
本稿では,MLPヘッドをニューラルネットワークに置き換えた新しいアーキテクチャを提案する。
まず、ニューラルネットワークのアクティビティ分布を記述するための新しい静的ニューラルネットワーク関数を提案し、次に2つの静的ニューラルネットワーク関数を用いて効率的な数ショット分類器を構築する。
このニューラルネットワークベース(NF)分類器は、2つの結合された静的ニューラルネットワークから構成される。
基礎分野によるサポートサンプルの特徴情報,高レベル分野による既知のカテゴリ情報,クロスフィールド接続によるサポートサンプルの特徴情報を記憶する。
提案したLPヘッドを新たなアーキテクチャであるViTNFに置き換え、ソースタスクで特徴抽出器を事前訓練し、NF分類器をメタテストでサポートサンプルで個別にトレーニングすることにより、3段階のトレーニングモードを簡素化し、ViTのトレーニングサンプルに対する需要とモデルの訓練の難しさを著しく低減する。
新しいカテゴリーを同定する際のモデルの能力を高めるために,基本分野の側面相互作用尺度を決定する効果的なアルゴリズムを提案する。
実験結果から,CIFAR-100, ImageNet-100, CUB-200, Standard Carsの既存手法を超越し,新クラスおよび全クラスにおいて,19倍,16倍の劇的精度向上を実現し,GCDにおいて顕著な優位性を示した。
関連論文リスト
- Neural Field Classifiers via Target Encoding and Classification Loss [38.28073206783851]
本稿では,既存のニューラルネットワーク手法を分類タスクとして定式化する新しいニューラルネットワーク(NFC)フレームワークを提案する。
NFCの目覚ましい効果を、ほぼ無料の余剰計算コストで実証する。
論文 参考訳(メタデータ) (2024-03-02T01:20:59Z) - Activate and Reject: Towards Safe Domain Generalization under Category
Shift [71.95548187205736]
カテゴリーシフト(DGCS)下における領域一般化の実践的問題について検討する。
未知のクラスサンプルを同時に検出し、ターゲットドメイン内の既知のクラスサンプルを分類することを目的としている。
従来のDGと比較すると,1)ソースクラスのみを用いたトレーニングにおいて,未知の概念を学習する方法,2)ソーストレーニングされたモデルを未知の環境に適応する方法,の2つの新しい課題に直面している。
論文 参考訳(メタデータ) (2023-10-07T07:53:12Z) - Exploring Learned Representations of Neural Networks with Principal
Component Analysis [1.0923877073891446]
ある層では、高い精度の分類には中間的特徴空間分散の20%しか必要としない。
本研究は神経崩壊と相関し, 中間神経崩壊の関連現象の部分的証拠を提供する。
論文 参考訳(メタデータ) (2023-09-27T00:18:25Z) - FaFCNN: A General Disease Classification Framework Based on Feature
Fusion Neural Networks [4.097623533226476]
本稿では,機能認識型統合相関ニューラルネットワーク (FaFCNN) を提案する。
実験結果から,事前学習による強化特徴を用いた訓練により,無作為森林法よりも高い性能向上が得られた。
論文 参考訳(メタデータ) (2023-07-24T04:23:08Z) - ELFIS: Expert Learning for Fine-grained Image Recognition Using Subsets [6.632855264705276]
ファイングラインド・ビジュアル・認識のためのエキスパート・ラーニング・フレームワークであるELFISを提案する。
ニューラルネットワークベースのエキスパートのセットは、メタカテゴリに焦点を当ててトレーニングされ、マルチタスクフレームワークに統合される。
実験では、CNNとトランスフォーマーベースのネットワークを使用して、最大+1.3%の精度でSoTA FGVRベンチマークが改善された。
論文 参考訳(メタデータ) (2023-03-16T12:45:19Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。