論文の概要: Spectral Vision Transformer for Efficient Tokenization with Limited Data
- arxiv url: http://arxiv.org/abs/2605.12026v1
- Date: Tue, 12 May 2026 12:13:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.8469
- Title: Spectral Vision Transformer for Efficient Tokenization with Limited Data
- Title(参考訳): 限られたデータを用いた効率的なトークン化のためのスペクトルビジョン変換器
- Authors: Alexandra G. Roberts, Maneesh John, Jinwei Zhang, Dominick Romano, Mert Sisman, Ki Sueng Choi, Heejong Kim, Mert R. Sabuncu, Thanh D. Nguyen, Alexey V. Dimov, Pascal Spincemaille, Brian H. Kopell, Yi Wang,
- Abstract要約: 限られたデータにおける効率的なトークン化のための新しいスペクトルビジョン変換器アーキテクチャを提案する。
空間的視覚変換器と比較して,スペクトル投影による複雑性の低下が認められた。
- 参考スコア(独自算出の注目度): 34.67528213802831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel spectral vision transformer architecture for efficient tokenization in limited data, with an emphasis on medical imaging. We outline convenient theoretical properties arising from the choice of basis including spatial invariance and optimal signal-to-noise ratio. We show reduced complexity arising from the spectral projection compared to spatial vision transformers. We show equitable or superior performance with a reduced number of parameters as compared to a variety of models including compact and standard vision transformers, convolutional neural networks with attention, shifted window transformers, multi-layer perceptrons, and logistic regression. We include simulated, public, and clinical data in our analysis and release our code at: \verb+github.com/agr78/spectralViT+.
- Abstract(参考訳): 本稿では,医用画像に焦点をあてて,限られたデータの効率的なトークン化のための新しいスペクトルビジョントランスフォーマーアーキテクチャを提案する。
本稿では,空間的不変性や信号対雑音比の最適化など,基本条件の選択から生じる便利な理論的特性について概説する。
空間的視覚変換器と比較して,スペクトル投影による複雑性の低下が認められた。
我々は、コンパクト・標準視覚変換器、注目を伴う畳み込みニューラルネットワーク、シフトウインドウ変換器、多層パーセプトロン、ロジスティック回帰など、様々なモデルと比較して、パラメータの削減による同等または優れた性能を示す。
分析にはシミュレート、公開、臨床データが含まれており、コードのリリースは以下の通りである。
関連論文リスト
- DuoFormer: Leveraging Hierarchical Representations by Local and Global Attention Vision Transformer [1.456352735394398]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化プロセスを通じてトランスフォーマー入力に適応し、継承されたマルチスケールの帰納バイアスを保存する。
論文 参考訳(メタデータ) (2025-06-15T22:42:57Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Patch Similarity Aware Data-Free Quantization for Vision Transformers [2.954890575035673]
Patch similarity Aware data-free Quantization framework for Vision Transformersを提案する。
本研究では,ガウス雑音と実画像の処理において,自己アテンションモジュールの特性を解析し,一般的な相違点(パッチ類似点)を明らかにする。
PSAQ-ViTの有効性を検証するため,様々なベンチマークで実験およびアブレーション実験を行った。
論文 参考訳(メタデータ) (2022-03-04T11:47:20Z) - Investigating Expressiveness of Transformer in Spectral Domain for
Graphs [6.092217185687028]
変圧器の領域における空間領域とスペクトル領域の関連性について検討し,その証明を行う。
本研究では,空間空間における注目に類似したグラフスペクトル全体に対する注目を実現するためのフレームワークFeTAを提案する。
論文 参考訳(メタデータ) (2022-01-23T18:03:22Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Vision Transformers for Dense Prediction [77.34726150561087]
高密度予測タスクのバックボーンとして、畳み込みネットワークの代わりにビジョントランスを活用するアーキテクチャである高密度ビジョントランスを紹介します。
実験により,このアーキテクチャは高密度予測タスクにおいて大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-24T18:01:17Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。