Fugu-MT 論文翻訳(概要): ZACH-ViT: Regime-Dependent Inductive Bias in Compact Vision Transformers for Medical Imaging

論文の概要: ZACH-ViT: Regime-Dependent Inductive Bias in Compact Vision Transformers for Medical Imaging

arxiv url: http://arxiv.org/abs/2602.17929v1
Date: Fri, 20 Feb 2026 01:38:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 18:01:41.197052
Title: ZACH-ViT: Regime-Dependent Inductive Bias in Compact Vision Transformers for Medical Imaging
Title（参考訳）: ZACH-ViT:医療画像用小型ビジョントランスにおけるレジーム依存性誘導バイアス
Authors: Athanasios Angelakis,
Abstract要約: ZACH-ViTはコンパクトなビジョン変換器で、位置埋め込みとトークンの両方を取り除きます。特に「ゼロトークン」とは、専用の[NIST]アグリゲーショントークンと位置埋め込みを取り除くことを指す。 ZACH-ViTは、サブ秒の推論時間を維持しながら競合性能を達成する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Vision Transformers rely on positional embeddings and class tokens that encode fixed spatial priors. While effective for natural images, these priors may hinder generalization when spatial layout is weakly informative or inconsistent, a frequent condition in medical imaging and edge-deployed clinical systems. We introduce ZACH-ViT (Zero-token Adaptive Compact Hierarchical Vision Transformer), a compact Vision Transformer that removes both positional embeddings and the [CLS] token, achieving permutation invariance through global average pooling over patch representations. The term "Zero-token" specifically refers to removing the dedicated [CLS] aggregation token and positional embeddings; patch tokens remain unchanged and are processed normally. Adaptive residual projections preserve training stability in compact configurations while maintaining a strict parameter budget. Evaluation is performed across seven MedMNIST datasets spanning binary and multi-class tasks under a strict few-shot protocol (50 samples per class, fixed hyperparameters, five random seeds). The empirical analysis demonstrates regime-dependent behavior: ZACH-ViT (0.25M parameters, trained from scratch) achieves its strongest advantage on BloodMNIST and remains competitive with TransMIL on PathMNIST, while its relative advantage decreases on datasets with strong anatomical priors (OCTMNIST, OrganAMNIST), consistent with the architectural hypothesis. These findings support the view that aligning architectural inductive bias with data structure can be more important than pursuing universal benchmark dominance. Despite its minimal size and lack of pretraining, ZACH-ViT achieves competitive performance while maintaining sub-second inference times, supporting deployment in resource-constrained clinical environments. Code and models are available at https://github.com/Bluesman79/ZACH-ViT.
Abstract（参考訳）: 視覚変換器は固定空間先行を符号化する位置埋め込みとクラストークンに依存している。自然画像に有効であるが、これらの先行は、空間的レイアウトが弱い場合や、医用画像やエッジ展開臨床システムにおいて頻繁な状態である不整合時に、一般化を妨げる可能性がある。本稿では,ZACH-ViT (Zero-token Adaptive Compact Hierarchical Vision Transformer) を導入し,ZACH-ViT(Zero-token Adaptive Compact Hierarchical Vision Transformer) とZACH-ViT(Zero-token Adaptive Compact Hierarchical Vision Transformer)の2つを紹介した。ゼロトークン(Zero-token)とは、専用の[CLS]アグリゲーショントークンと位置埋め込みを取り除くことを指す。適応的残留射影は、厳密なパラメータ予算を維持しながら、コンパクトな構成でトレーニングの安定性を維持する。厳密な数ショットプロトコル(クラス毎に50のサンプル、固定されたハイパーパラメータ、5つのランダムシード)の下で、バイナリとマルチクラスタスクにまたがる7つのMedMNISTデータセットで評価が行われる。 ZACH-ViT (0.25Mパラメータ、スクラッチからトレーニングされた)は、BloodMNISTに対して強力なアドバンテージを達成し、PathMNIST上でTransMILと競合する一方で、強力な解剖学的先行性を持つデータセット(OCTMNIST、OrganAMNIST)では相対的なアドバンテージが低下する。これらの知見は、普遍的なベンチマーク支配を追求するよりも、アーキテクチャ上の帰納的バイアスとデータ構造との整合性が重要であるという見解を支持している。最小限のサイズと事前トレーニングの欠如にもかかわらず、ZACH-ViTは低秒の推論時間を維持しながら競争性能を達成し、リソース制約された臨床環境への展開をサポートする。コードとモデルはhttps://github.com/Bluesman79/ZACH-ViT.comで入手できる。

関連論文リスト

Gated Differential Linear Attention: A Linear-Time Decoder for High-Fidelity Medical Segmentation [15.30336007288786]
PVT-GDLAはデコーダ中心のトランスフォーマーで、線形時間でシャープで長距離の依存関係を復元する。これは、CT、MRI、超音波、皮膚内視鏡のベンチマークで同等のトレーニング予算で最先端の精度を達成する。
論文参考訳（メタデータ） (2026-03-03T08:26:08Z)
Fake It Right: Injecting Anatomical Logic into Synthetic Supervised Pre-training for Medical Segmentation [21.75204301463342]
ビジョントランスフォーマー(ViT)は3次元の医療セグメンテーションで優れるが、大量のデータセットを必要とする。 Formula-Driven Supervised Learning (F)は、合成数学的プリミティブを事前学習することで、プライバシ保護の代替手段を提供する。本稿では,Fの無限拡張性と解剖学的リアリズムを一体化するための注釈付きインフォームド・シンセティック・アナトロジー・プレトレーニング・フレームワークを提案する。
論文参考訳（メタデータ） (2026-03-01T08:15:18Z)
LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs [61.06744611795341]
医用視覚言語モデル(VLM)は医用画像の強力なゼロショット認識器である。本研究では,ラプラシアン支援トランスダクティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ(texttttextbfLATA,ラプラシアン支援トランスダクティブ・アダプティブ・アダプティブ・アダプティブ)を提案する。 texttttextbfLATAは交換性を損なうことなくゼロショット予測をシャープにする。
論文参考訳（メタデータ） (2026-02-19T16:45:38Z)
When Swin Transformer Meets KANs: An Improved Transformer Architecture for Medical Image Segmentation [10.656996937993199]
我々は,有理機能に基づくKAN(Kolmogorov-Arnold Networks)をSwin Transformerエンコーダに統合したU-NetライクアーキテクチャであるUKASTを紹介する。 UKASTは、4つの異なる2Dおよび3D医療画像セグメンテーションベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-11-06T05:44:57Z)
CoMViT: An Efficient Vision Backbone for Supervised Classification in Medical Imaging [0.3683202928838613]
CoMViTは、リソース制約のある医用画像解析に最適化された、コンパクトで一般化可能なVision Transformerアーキテクチャである。 12のMedMNISTデータセットで堅牢なパフォーマンスを実現し、4.5Mパラメータしか持たない軽量な設計を維持している。
論文参考訳（メタデータ） (2025-10-31T12:49:13Z)
Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。 COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。 COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文参考訳（メタデータ） (2025-10-28T03:47:44Z)
Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。 KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文参考訳（メタデータ） (2025-10-23T07:12:26Z)
The 1st Solution for CARE Liver Task Challenge 2025: Contrast-Aware Semi-Supervised Segmentation with Domain Generalization and Test-Time Adaptation [23.156209918252838]
CoSSeg-TTA は nnU-Netv2 上に構築された GED4 (Gd-EOB-DTPA 拡張肝胆道相MRI) のコンパクトセグメンテーションフレームワークである。ドメイン適応モジュールは、ランダム化されたヒストグラムスタイルの外観伝達関数とトレーニング可能なコントラスト対応ネットワークを組み込んで、ドメインの多様性を強化し、センター間の変動を緩和する。
論文参考訳（メタデータ） (2025-10-05T15:18:53Z)
BATR-FST: Bi-Level Adaptive Token Refinement for Few-Shot Transformers [2.5680214354539803]
半ショット変換器(BATR-FST)の両レベル適応型トケリファインメントを提案する。 BATR-FSTはトークン表現を徐々に改善し、数ショット分類のための頑健な帰納バイアスを維持している。 1ショットと5ショットの両方のシナリオで優れた結果が得られ、トランスフォーマーによる数ショットの分類が改善される。
論文参考訳（メタデータ） (2025-09-16T07:33:21Z)
Decoupling Clinical and Class-Agnostic Features for Reliable Few-Shot Adaptation under Shift [12.373281238541296]
医療ビジョン言語モデル(VLM)は、臨床診断支援を約束するが、分布シフトによる信頼性は、安全なデプロイメントにとって大きな関心事である。そこで我々はDRiFtを提案する。DRiFtは機能分離フレームワークで、臨床的に関連する信号をタスク非依存のノイズから明確に分離する。提案手法は,従来のプロンプトベースの手法に比べて,Top-1精度+11.4%,Macro-F1+3.3%向上する。
論文参考訳（メタデータ） (2025-09-11T12:26:57Z)
Towards Continual Learning Desiderata via HSIC-Bottleneck Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文参考訳（メタデータ） (2024-01-17T09:01:29Z)
UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文参考訳（メタデータ） (2022-10-23T15:24:47Z)
nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。 nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文参考訳（メタデータ） (2021-09-07T17:08:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。