論文の概要: Learning CNN on ViT: A Hybrid Model to Explicitly Class-specific Boundaries for Domain Adaptation
- arxiv url: http://arxiv.org/abs/2403.18360v1
- Date: Wed, 27 Mar 2024 08:52:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 17:47:16.967961
- Title: Learning CNN on ViT: A Hybrid Model to Explicitly Class-specific Boundaries for Domain Adaptation
- Title(参考訳): ViTによるCNN学習:ドメイン適応のためのクラス固有境界のハイブリッドモデル
- Authors: Ba Hung Ngo, Nhat-Tuong Do-Tran, Tuan-Ngoc Nguyen, Hae-Gon Jeon, Tae Jong Choi,
- Abstract要約: ほとんどのドメイン適応(DA)法は、畳み込みニューラルネットワーク(CNN)または視覚変換器(ViT)に基づいている。
ECB(Explicitly Class-specific boundaries)と呼ばれる,ViTとCNNの両方をフル活用するためのハイブリッド手法を設計する。
ECBは独自の強みを組み合わせるために、ViTでCNNを学びます。
- 参考スコア(独自算出の注目度): 13.753795233064695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most domain adaptation (DA) methods are based on either a convolutional neural networks (CNNs) or a vision transformers (ViTs). They align the distribution differences between domains as encoders without considering their unique characteristics. For instance, ViT excels in accuracy due to its superior ability to capture global representations, while CNN has an advantage in capturing local representations. This fact has led us to design a hybrid method to fully take advantage of both ViT and CNN, called Explicitly Class-specific Boundaries (ECB). ECB learns CNN on ViT to combine their distinct strengths. In particular, we leverage ViT's properties to explicitly find class-specific decision boundaries by maximizing the discrepancy between the outputs of the two classifiers to detect target samples far from the source support. In contrast, the CNN encoder clusters target features based on the previously defined class-specific boundaries by minimizing the discrepancy between the probabilities of the two classifiers. Finally, ViT and CNN mutually exchange knowledge to improve the quality of pseudo labels and reduce the knowledge discrepancies of these models. Compared to conventional DA methods, our ECB achieves superior performance, which verifies its effectiveness in this hybrid model. The project website can be found https://dotrannhattuong.github.io/ECB/website/.
- Abstract(参考訳): ほとんどのドメイン適応(DA)法は、畳み込みニューラルネットワーク(CNN)または視覚変換器(ViT)に基づいている。
彼らは独自の特性を考慮せずに、ドメイン間の分布差をエンコーダとして整列させる。
例えば、ViTはグローバル表現をキャプチャする能力に優れており、CNNはローカル表現をキャプチャする利点がある。
この事実により、私たちは、Explicitly Class-specific Boundaries (ECB)と呼ばれるViTとCNNの両方をフルに活用するハイブリッドな手法を設計しました。
ECBは独自の強みを組み合わせるために、ViTでCNNを学びます。
特に,2つの分類器の出力間の差を最大化することにより,ViTの特性を利用してクラス固有の決定境界を明示的に見つけることで,ソースサポートから離れたターゲットサンプルを検出する。
対照的に、CNNエンコーダクラスタは、2つの分類器の確率間の差を最小限に抑えて、予め定義されたクラス固有の境界に基づいて、ターゲットとなる特徴を目標としている。
最後に、ViTとCNNは相互に知識を交換し、擬似ラベルの品質を改善し、これらのモデルの知識格差を減らす。
従来のDA手法と比較して、当社のECBは優れたパフォーマンスを達成しており、このハイブリッドモデルの有効性を検証しています。
プロジェクトのWebサイトはhttps://dotrannhattuong.github.io/ECB/website/にある。
関連論文リスト
- CNN2GNN: How to Bridge CNN with GNN [59.42117676779735]
蒸留によりCNNとGNNを統一する新しいCNN2GNNフレームワークを提案する。
Mini-ImageNetにおける蒸留ブースターの2層GNNの性能は、ResNet152のような数十層を含むCNNよりもはるかに高い。
論文 参考訳(メタデータ) (2024-04-23T08:19:08Z) - PICNN: A Pathway towards Interpretable Convolutional Neural Networks [12.31424771480963]
フィルタと画像のクラス間の絡み合いを軽減する新しい経路を導入する。
我々はBernoulliサンプリングを用いて、学習可能なフィルタクラス対応行列からフィルタクラスタ割り当て行列を生成する。
提案手法の有効性を,広く使用されている10のネットワークアーキテクチャ上で評価する。
論文 参考訳(メタデータ) (2023-12-19T11:36:03Z) - BinaryViT: Pushing Binary Vision Transformers Towards Convolutional
Models [0.0]
バイナリ化は、ViTモデルのサイズと計算コストを大幅に削減するのに役立つ。
ViTは、畳み込みニューラルネットワーク(CNN)バイナライゼーションメソッドを直接適用する場合、パフォーマンスが低下する。
我々は、CNNアーキテクチャにインスパイアされたBinaryViTを提案し、CNNアーキテクチャから純粋なViTアーキテクチャへの操作を含む。
論文 参考訳(メタデータ) (2023-06-29T04:48:02Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Attention Mechanism Meets with Hybrid Dense Network for Hyperspectral
Image Classification [6.946336514955953]
畳み込みニューラルネットワーク(CNN)は、実際より適している。
固定化されたカーネルサイズは、従来のCNNが柔軟でも、特徴学習にも適さないため、分類精度に影響を及ぼす。
提案手法は,3Dと2Dインセプションネットのコアアイデアとアテンション機構を組み合わせることで,ハイブリッドシナリオにおけるHSIC CNNの性能向上を図ることを目的としている。
AfNetは、各ブロックに異なるカーネルを持つ3つのアテンションフューズされた並列ハイブリッドサブネットをベースとして、最終的な地上トラスマップを強化するために高レベルな特徴を繰り返し利用する。
論文 参考訳(メタデータ) (2022-01-04T06:30:24Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z) - A Systematic Evaluation: Fine-Grained CNN vs. Traditional CNN
Classifiers [54.996358399108566]
本稿では,大規模分類データセット上でトップノーチ結果を示すランドマーク一般的なCNN分類器の性能について検討する。
最先端のきめ細かい分類器と比較する。
実験において, 粒度の細かい分類器がベースラインを高められるかどうかを判定するために, 6つのデータセットについて広範囲に評価する。
論文 参考訳(メタデータ) (2020-03-24T23:49:14Z) - On the Texture Bias for Few-Shot CNN Segmentation [21.349705243254423]
畳み込みニューラルネットワーク(CNN)は、視覚認識タスクを実行するために形状によって駆動される。
最近の証拠は、CNNのテクスチャバイアスが、大きなラベル付きトレーニングデータセットで学習するときに、より高いパフォーマンスのモデルを提供することを示している。
本稿では,特徴空間内の高周波局所成分を減衰させるために,ガウス差分(DoG)の集合を統合する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-09T11:55:47Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。