論文の概要: From $\mathcal{O}(n^{2})$ to $\mathcal{O}(n)$ Parameters: Quantum Self-Attention in Vision Transformers for Biomedical Image Classification
- arxiv url: http://arxiv.org/abs/2503.07294v2
- Date: Wed, 25 Jun 2025 17:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 14:36:55.68291
- Title: From $\mathcal{O}(n^{2})$ to $\mathcal{O}(n)$ Parameters: Quantum Self-Attention in Vision Transformers for Biomedical Image Classification
- Title(参考訳): $\mathcal{O}(n^{2})$から$\mathcal{O}(n)$パラメータ:生体画像分類のための視覚変換器における量子自己注意
- Authors: Thomas Boucher, John Whittle, Evangelos B. Mazomenos,
- Abstract要約: 自己アテンション(SA)機構を持つ量子ビジョントランスフォーマー(QViT)は、量子自己アテンション(QSA)機構に置き換えられる。
RetinaMNISTでは,超パラメータ効率のQViTが13/14 SOTA法より優れており,CNNやViTが優れている。
我々の高量子アーキテクチャはKD事前学習の恩恵を受けており、QSAパラメータとKDの有効性のスケーリング関係が示唆された。
- 参考スコア(独自算出の注目度): 1.3518297878940662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate that quantum vision transformers (QViTs), vision transformers (ViTs) with self-attention (SA) mechanisms replaced by quantum self-attention (QSA) mechanisms, can match state-of-the-art (SOTA) biomedical image classifiers while using 99.99% fewer parameters. QSAs are produced by replacing linear SA layers with parameterised quantum neural networks (QNNs), producing a QSA mechanism and reducing parameter scaling from $\mathcal{O}(n^2)$ to $\mathcal{O}(n)$. On RetinaMNIST, our ultra parameter-efficient QViT outperforms 13/14 SOTA methods including CNNs and ViTs, achieving 56.5% accuracy, just 0.88% below the top MedMamba model while using 99.99% fewer parameters (1K vs 14.5M) and 89% fewer GFLOPs. We present the first investigation of knowledge distillation (KD) from classical to quantum vision transformers in biomedical image classification, showing that QViTs maintain comparable performance to classical ViTs across eight diverse datasets spanning multiple modalities, with improved QSA parameter-efficiency. Our higher-qubit architecture benefitted more from KD pre-training, suggesting a scaling relationship between QSA parameters and KD effectiveness. These findings establish QSA as a practical architectural choice toward parameter-efficient biomedical image analysis.
- Abstract(参考訳): 我々は、量子ビジョン変換器(QViT)、自己注意(SA)機構を量子自己注意(QSA)機構に置き換えた視覚変換器(ViT)が、99.99%のパラメータを用いて、最先端(SOTA)バイオメディカルイメージ分類器とマッチングできることを実証した。
QSAは、線形SA層をパラメータ化された量子ニューラルネットワーク(QNN)に置き換え、QSA機構を生成し、パラメータスケーリングを$\mathcal{O}(n^2)$から$\mathcal{O}(n)$に削減することで生成される。
RetinaMNISTでは、超パラメータ効率のQViTがCNNやViTを含む13/14SOTA法より優れ、56.5%の精度で、上位のMedMambaモデルより0.88%低く、99.99%少ないパラメータ(1K対14.5M)と89%少ないGFLOPを使用する。
バイオメディカル画像分類における古典的・量子視覚変換器からの知識蒸留(KD)を初めて検討し,QViTが複数のモードにまたがる8つのデータセットにおける古典的ViTに匹敵する性能を維持し,QSAパラメータ効率が向上したことを示す。
我々の高量子アーキテクチャはKD事前学習の恩恵を受けており、QSAパラメータとKDの有効性のスケーリング関係が示唆された。
これらの知見はQSAをパラメータ効率のよい生体画像解析のための実用的なアーキテクチャ選択として確立している。
関連論文リスト
- A Comparative Study of CNN, ResNet, and Vision Transformers for Multi-Classification of Chest Diseases [0.0]
ビジョントランスフォーマー(ViT)は、そのスケーラビリティと大量のデータを処理する能力のため、強力なツールである。
NIH Chest X-rayデータセットを用いて、ImageNetで事前トレーニングされたモデルと、スクラッチからトレーニングされたモデルである2種類のViTモデルを微調整した。
本研究は,14の異なる疾患の多ラベル分類において,これらのモデルの性能を評価するものである。
論文 参考訳(メタデータ) (2024-05-31T23:56:42Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Quantization Variation: A New Perspective on Training Transformers with Low-Bit Precision [45.69716658698776]
本稿では,トランスフォーマーによる低ビット量子化学習の難しさを識別する。
本稿では,視覚と言語変換の両面での変動を考慮した量子化手法を提案する。
我々のソリューションは2ビットのSwin-TとバイナリBERTベースを大幅に改善し、3.35%と1.4%の精度向上を実現した。
論文 参考訳(メタデータ) (2023-07-01T13:01:39Z) - Quantum machine learning for image classification [39.58317527488534]
本研究では、量子力学の原理を有効計算に活用する2つの量子機械学習モデルを紹介する。
我々の最初のモデルは、並列量子回路を持つハイブリッド量子ニューラルネットワークであり、ノイズの多い中間スケール量子時代においても計算の実行を可能にする。
第2のモデルは、クオン進化層を持つハイブリッド量子ニューラルネットワークを導入し、畳み込みプロセスによる画像の解像度を低下させる。
論文 参考訳(メタデータ) (2023-04-18T18:23:20Z) - Efficiently Training Vision Transformers on Structural MRI Scans for
Alzheimer's Disease Detection [2.359557447960552]
ビジョントランスフォーマー(ViT)は近年、コンピュータビジョンアプリケーションのためのCNNの代替として登場した。
難易度に基づいて,脳神経画像の下流タスクに対するViTアーキテクチャの変種を検証した。
合成および実MRIスキャンで事前訓練した微調整型視覚変換器モデルを用いて、5%と9-10%の性能向上を実現した。
論文 参考訳(メタデータ) (2023-03-14T20:18:12Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。