論文の概要: Simple Self Organizing Map with Visual Transformer
- arxiv url: http://arxiv.org/abs/2503.04121v1
- Date: Thu, 06 Mar 2025 05:58:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:48.085408
- Title: Simple Self Organizing Map with Visual Transformer
- Title(参考訳): 視覚変換器を用いた簡易自己組織化マップ
- Authors: Alan Luo, Kaiwen Yuan,
- Abstract要約: 視覚変換器(ViT)は様々な視覚タスクにおいて異常な性能を示した。
インダクティブバイアスの欠如により、ViTは小さなデータセットではパフォーマンスが劣る傾向にある。
自己組織化マップ(SOM)は、本質的にトポロジーと空間的組織を保存するために構成されている。
- 参考スコア(独自算出の注目度): 1.3121410433987561
- License:
- Abstract: Vision Transformers (ViTs) have demonstrated exceptional performance in various vision tasks. However, they tend to underperform on smaller datasets due to their inherent lack of inductive biases. Current approaches address this limitation implicitly-often by pairing ViTs with pretext tasks or by distilling knowledge from convolutional neural networks (CNNs) to strengthen the prior. In contrast, Self-Organizing Maps (SOMs), a widely adopted self-supervised framework, are inherently structured to preserve topology and spatial organization, making them a promising candidate to directly address the limitations of ViTs in limited or small training datasets. Despite this potential, equipping SOMs with modern deep learning architectures remains largely unexplored. In this study, we conduct a novel exploration on how Vision Transformers (ViTs) and Self-Organizing Maps (SOMs) can empower each other, aiming to bridge this critical research gap. Our findings demonstrate that these architectures can synergistically enhance each other, leading to significantly improved performance in both unsupervised and supervised tasks. Code will be publicly available.
- Abstract(参考訳): 視覚変換器(ViT)は様々な視覚タスクにおいて異常な性能を示した。
しかし、本質的な帰納バイアスの欠如のため、より小さなデータセットではパフォーマンスが低い傾向にある。
現在のアプローチでは、ViTとプレテキストタスクをペアリングしたり、畳み込みニューラルネットワーク(CNN)から知識を抽出して事前を強化することで、この制限に暗黙的に対処している。
対照的に、広く採用されている自己組織化マップ(SOM)は、本質的にトポロジと空間的組織を保存するために構築されており、限られたまたは小さなトレーニングデータセットにおけるViTの制限に対処する有望な候補となっている。
この可能性にもかかわらず、現代のディープラーニングアーキテクチャにSOMを組み込むことは、ほとんど未解明のままである。
本研究では,視覚変換器 (ViTs) と自己組織化マップ (SOMs) が相互に連携し,この重要な研究ギャップを埋めることを目的とした新たな探索を行う。
その結果,これらのアーキテクチャは相乗的に相互に強化され,教師なしタスクと教師なしタスクの両方のパフォーマンスが大幅に向上することがわかった。
コードは公開されます。
関連論文リスト
- Structured Initialization for Attention in Vision Transformers [34.374054040300805]
畳み込みニューラルネットワーク(CNN)は、アーキテクチャ上の帰納バイアスを持ち、小規模な問題に対してうまく機能する。
我々は、CNNに固有のアーキテクチャバイアスを、ViT内の初期化バイアスとして再解釈することができると論じる。
この洞察は、ViTsが大規模アプリケーションに対する柔軟性を維持しながら、小規模問題でも同じように機能する権限を付与する上で重要である。
論文 参考訳(メタデータ) (2024-04-01T14:34:47Z) - Enhancing Performance of Vision Transformers on Small Datasets through
Local Inductive Bias Incorporation [13.056764072568749]
ビジョントランスフォーマー(ViT)は、大規模なデータセットでは顕著なパフォーマンスを達成するが、小さなデータセットでは畳み込みニューラルネットワーク(CNN)よりもパフォーマンスが悪くなる傾向がある。
本稿では、パッチレベルのローカル情報を抽出し、ViTの自己保持ブロックで使用される埋め込みに組み込む、ローカルInFormation Enhancer (LIFE) と呼ばれるモジュールを提案する。
提案するモジュールはメモリと効率が良く, 分類や蒸留トークンなどの補助トークンを処理できるほど柔軟である。
論文 参考訳(メタデータ) (2023-05-15T11:23:18Z) - What do Vision Transformers Learn? A Visual Exploration [68.50771218442776]
視覚変換器(ViT)はコンピュータビジョンのデファクトアーキテクチャとして急速に普及しつつある。
本稿では、ViT上での可視化の障害に対処し、ViTとCNNの根本的な相違について検討する。
また、DeiT、CoaT、ConViT、PiT、Swin、Twinなど、さまざまなViT変種に対して大規模な可視化を行っています。
論文 参考訳(メタデータ) (2022-12-13T16:55:12Z) - MonoViT: Self-Supervised Monocular Depth Estimation with a Vision
Transformer [52.0699787446221]
自己教師付き単眼深度推定の柔軟性とViTモデルにより実現された大域的推論の枠組みであるMonoViTを提案する。
平易な畳み込みとTransformerブロックを組み合わせることで、我々のモデルは局所的かつグローバルに推論し、より詳細な精度と精度で深度予測を行うことができる。
論文 参考訳(メタデータ) (2022-08-06T16:54:45Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - ConViT: Improving Vision Transformers with Soft Convolutional Inductive
Biases [16.308432111311195]
ビジョントランスフォーマー(ViT)は、より柔軟な自己アテンション層に依存し、最近画像分類のためにCNNを上回っています。
本稿では,「ソフト」畳み込み型インダクティブバイアスを装着可能な位置自己アテンションの一形態であるゲート型位置自己アテンション(gpsa)を紹介する。
その結果、ConvolutionalライクなViTアーキテクチャであるConViTは、ImageNet上のDeiTよりも優れています。
論文 参考訳(メタデータ) (2021-03-19T09:11:20Z) - LSM: Learning Subspace Minimization for Low-level Vision [78.27774638569218]
我々は、正規化項を学習可能な部分空間制約に置き換え、データ項をドメイン知識を活用するために保存する。
この学習サブスペース最小化(LSM)フレームワークは、多くの低レベル視覚タスクのネットワーク構造とパラメータを統一する。
インタラクティブな画像セグメンテーション、ビデオセグメンテーション、ステレオマッチング、オプティカルフローを含む4つの低レベルタスクについてLSMフレームワークを実証し、様々なデータセット上でネットワークを検証した。
論文 参考訳(メタデータ) (2020-04-20T10:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。