論文の概要: From $\mathcal{O}(n^{2})$ to $\mathcal{O}(n)$ Parameters: Quantum Self-Attention in Vision Transformers for Biomedical Image Classification
- arxiv url: http://arxiv.org/abs/2503.07294v2
- Date: Wed, 25 Jun 2025 17:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 14:36:55.68291
- Title: From $\mathcal{O}(n^{2})$ to $\mathcal{O}(n)$ Parameters: Quantum Self-Attention in Vision Transformers for Biomedical Image Classification
- Title(参考訳): $\mathcal{O}(n^{2})$から$\mathcal{O}(n)$パラメータ:生体画像分類のための視覚変換器における量子自己注意
- Authors: Thomas Boucher, John Whittle, Evangelos B. Mazomenos,
- Abstract要約: 自己アテンション(SA)機構を持つ量子ビジョントランスフォーマー(QViT)は、量子自己アテンション(QSA)機構に置き換えられる。
RetinaMNISTでは,超パラメータ効率のQViTが13/14 SOTA法より優れており,CNNやViTが優れている。
我々の高量子アーキテクチャはKD事前学習の恩恵を受けており、QSAパラメータとKDの有効性のスケーリング関係が示唆された。
- 参考スコア(独自算出の注目度): 1.3518297878940662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate that quantum vision transformers (QViTs), vision transformers (ViTs) with self-attention (SA) mechanisms replaced by quantum self-attention (QSA) mechanisms, can match state-of-the-art (SOTA) biomedical image classifiers while using 99.99% fewer parameters. QSAs are produced by replacing linear SA layers with parameterised quantum neural networks (QNNs), producing a QSA mechanism and reducing parameter scaling from $\mathcal{O}(n^2)$ to $\mathcal{O}(n)$. On RetinaMNIST, our ultra parameter-efficient QViT outperforms 13/14 SOTA methods including CNNs and ViTs, achieving 56.5% accuracy, just 0.88% below the top MedMamba model while using 99.99% fewer parameters (1K vs 14.5M) and 89% fewer GFLOPs. We present the first investigation of knowledge distillation (KD) from classical to quantum vision transformers in biomedical image classification, showing that QViTs maintain comparable performance to classical ViTs across eight diverse datasets spanning multiple modalities, with improved QSA parameter-efficiency. Our higher-qubit architecture benefitted more from KD pre-training, suggesting a scaling relationship between QSA parameters and KD effectiveness. These findings establish QSA as a practical architectural choice toward parameter-efficient biomedical image analysis.
- Abstract(参考訳): 我々は、量子ビジョン変換器(QViT)、自己注意(SA)機構を量子自己注意(QSA)機構に置き換えた視覚変換器(ViT)が、99.99%のパラメータを用いて、最先端(SOTA)バイオメディカルイメージ分類器とマッチングできることを実証した。
QSAは、線形SA層をパラメータ化された量子ニューラルネットワーク(QNN)に置き換え、QSA機構を生成し、パラメータスケーリングを$\mathcal{O}(n^2)$から$\mathcal{O}(n)$に削減することで生成される。
RetinaMNISTでは、超パラメータ効率のQViTがCNNやViTを含む13/14SOTA法より優れ、56.5%の精度で、上位のMedMambaモデルより0.88%低く、99.99%少ないパラメータ(1K対14.5M)と89%少ないGFLOPを使用する。
バイオメディカル画像分類における古典的・量子視覚変換器からの知識蒸留(KD)を初めて検討し,QViTが複数のモードにまたがる8つのデータセットにおける古典的ViTに匹敵する性能を維持し,QSAパラメータ効率が向上したことを示す。
我々の高量子アーキテクチャはKD事前学習の恩恵を受けており、QSAパラメータとKDの有効性のスケーリング関係が示唆された。
これらの知見はQSAをパラメータ効率のよい生体画像解析のための実用的なアーキテクチャ選択として確立している。
関連論文リスト
- Quantization-Aware Neuromorphic Architecture for Efficient Skin Disease Classification on Resource-Constrained Devices [5.137218613814703]
資源限定ハードウェア上でのインクリメンタルな皮膚病変分類のための新しい量子化対応ニューロモルフィックアーキテクチャであるQANAを紹介する。
QANAはゴーストモジュール、効率的なチャンネルアテンション、堅牢な特徴表現のためのシャープ・アンド・エキサイティングブロックを統合している。
その量子化対応ヘッドとスパイク互換変換は、スパイクニューラルネットワーク(SNN)へのシームレスな変換と、ニューロモルフィックプラットフォームへの展開を可能にする。
論文 参考訳(メタデータ) (2025-07-21T18:01:44Z) - Distributed Quantum Neural Networks on Distributed Photonic Quantum Computing [3.299179876684316]
トレーニング可能なパラメータが$M(M+1)/2$のフォトニック量子ニューラルネットワーク(QNN)は高次元確率分布を生成する。
フォトニックQTの精度は95.50% pm 0.84%$で、パラメータは3,292である。
フォトニックQTは6-12%の絶対精度で古典的な圧縮技術より優れている。
論文 参考訳(メタデータ) (2025-05-13T11:58:45Z) - Q-SCALE: Quantum computing-based Sensor Calibration for Advanced Learning and Efficiency [1.2564343689544841]
本稿では,Deep Learning (DL) やQuantum Machine Learning (QML) といった先進的な手法を用いて,安価な光学ファインダストセンサの校正プロセスについて検討する。
プロジェクトの目的は、古典的領域と量子的領域の両方の洗練された4つのアルゴリズムを比較し、それらの格差を識別し、都市大気質監視における粒子状物質測定の精度と信頼性を改善するための代替アプローチを検討することである。
論文 参考訳(メタデータ) (2024-10-03T21:15:05Z) - A Comparative Study of CNN, ResNet, and Vision Transformers for Multi-Classification of Chest Diseases [0.0]
ビジョントランスフォーマー(ViT)は、そのスケーラビリティと大量のデータを処理する能力のため、強力なツールである。
NIH Chest X-rayデータセットを用いて、ImageNetで事前トレーニングされたモデルと、スクラッチからトレーニングされたモデルである2種類のViTモデルを微調整した。
本研究は,14の異なる疾患の多ラベル分類において,これらのモデルの性能を評価するものである。
論文 参考訳(メタデータ) (2024-05-31T23:56:42Z) - MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision
Transformer [7.041718444626999]
視覚変換器(MPTQ-ViT)のための混合精度後学習量子化フレームワークを提案する。
我々のViT,DeiT,Swinに関する実験では,ImageNetデータセットのSOTAと比較して精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-01-26T14:25:15Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Quantization Variation: A New Perspective on Training Transformers with Low-Bit Precision [45.69716658698776]
本稿では,トランスフォーマーによる低ビット量子化学習の難しさを識別する。
本稿では,視覚と言語変換の両面での変動を考慮した量子化手法を提案する。
我々のソリューションは2ビットのSwin-TとバイナリBERTベースを大幅に改善し、3.35%と1.4%の精度向上を実現した。
論文 参考訳(メタデータ) (2023-07-01T13:01:39Z) - Weight Re-Mapping for Variational Quantum Algorithms [54.854986762287126]
変動量子回路(VQC)における重み付けの考え方を紹介する。
我々は,8つの分類データセットに対する影響を評価するために,7つの異なる重み再マッピング関数を用いる。
以上の結果から,重量再マッピングによりVQCの収束速度が向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-09T09:42:21Z) - Quantum machine learning for image classification [39.58317527488534]
本研究では、量子力学の原理を有効計算に活用する2つの量子機械学習モデルを紹介する。
我々の最初のモデルは、並列量子回路を持つハイブリッド量子ニューラルネットワークであり、ノイズの多い中間スケール量子時代においても計算の実行を可能にする。
第2のモデルは、クオン進化層を持つハイブリッド量子ニューラルネットワークを導入し、畳み込みプロセスによる画像の解像度を低下させる。
論文 参考訳(メタデータ) (2023-04-18T18:23:20Z) - Efficiently Training Vision Transformers on Structural MRI Scans for
Alzheimer's Disease Detection [2.359557447960552]
ビジョントランスフォーマー(ViT)は近年、コンピュータビジョンアプリケーションのためのCNNの代替として登場した。
難易度に基づいて,脳神経画像の下流タスクに対するViTアーキテクチャの変種を検証した。
合成および実MRIスキャンで事前訓練した微調整型視覚変換器モデルを用いて、5%と9-10%の性能向上を実現した。
論文 参考訳(メタデータ) (2023-03-14T20:18:12Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Spikformer: When Spiking Neural Network Meets Transformer [102.91330530210037]
本稿では,スパイキングニューラルネットワーク(SNN)と自己認識機構という,生物学的にもっとも有効な2つの構造について考察する。
我々は、スパイキング・セルフ・アテンション(SSA)と、スパイキング・トランスフォーマー(Spikformer)という強力なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-29T14:16:49Z) - Symmetric Pruning in Quantum Neural Networks [111.438286016951]
量子ニューラルネットワーク(QNN)は、現代の量子マシンの力を発揮する。
ハンドクラフト対称アンサーゼを持つQNNは、一般に非対称アンサーゼを持つものよりも訓練性が高い。
本稿では,QNNのグローバル最適収束を定量化するために,実効量子ニューラルネットワークカーネル(EQNTK)を提案する。
論文 参考訳(メタデータ) (2022-08-30T08:17:55Z) - QSAN: A Near-term Achievable Quantum Self-Attention Network [73.15524926159702]
SAM(Self-Attention Mechanism)は機能の内部接続を捉えるのに長けている。
短期量子デバイスにおける画像分類タスクに対して,新しい量子自己注意ネットワーク(QSAN)を提案する。
論文 参考訳(メタデータ) (2022-07-14T12:22:51Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - CMT: Convolutional Neural Networks Meet Vision Transformers [68.10025999594883]
画像内の長距離依存関係をキャプチャできるため、画像認識タスクに視覚トランスフォーマーがうまく適用されている。
変圧器と既存の畳み込みニューラルネットワーク(CNN)の間には、パフォーマンスと計算コストの差がまだ残っている。
長距離依存関係をキャプチャするトランスフォーマーと、局所的な特徴をモデル化するCNNを利用して、新しいトランスフォーマーベースのハイブリッドネットワークを提案する。
特に、私たちのCMT-SはImageNetで83.5%、FLOPでは14倍、EfficientNetでは2倍の精度を実現しています。
論文 参考訳(メタデータ) (2021-07-13T17:47:19Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。