論文の概要: Equi-ViT: Rotational Equivariant Vision Transformer for Robust Histopathology Analysis
- arxiv url: http://arxiv.org/abs/2601.09130v1
- Date: Wed, 14 Jan 2026 04:03:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.256011
- Title: Equi-ViT: Rotational Equivariant Vision Transformer for Robust Histopathology Analysis
- Title(参考訳): Equi-ViT:ロバスト組織解析のための回転同変視覚変換器
- Authors: Fuyao Chen, Yuexi Du, Elèonore V. Lieffrig, Nicha C. Dvornek, John A. Onofrey,
- Abstract要約: 等価な畳み込みカーネルをViTアーキテクチャのパッチ埋め込みステージに統合するEqui-ViTを提案する。
Equi-ViTは、画像の向きによって、良好な回転整合パッチ埋め込みと安定した分類性能を実現する。
- 参考スコア(独自算出の注目度): 4.388994056961038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have gained rapid adoption in computational pathology for their ability to model long-range dependencies through self-attention, addressing the limitations of convolutional neural networks that excel at local pattern capture but struggle with global contextual reasoning. Recent pathology-specific foundation models have further advanced performance by leveraging large-scale pretraining. However, standard ViTs remain inherently non-equivariant to transformations such as rotations and reflections, which are ubiquitous variations in histopathology imaging. To address this limitation, we propose Equi-ViT, which integrates an equivariant convolution kernel into the patch embedding stage of a ViT architecture, imparting built-in rotational equivariance to learned representations. Equi-ViT achieves superior rotation-consistent patch embeddings and stable classification performance across image orientations. Our results on a public colorectal cancer dataset demonstrate that incorporating equivariant patch embedding enhances data efficiency and robustness, suggesting that equivariant transformers could potentially serve as more generalizable backbones for the application of ViT in histopathology, such as digital pathology foundation models.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、局所的なパターンキャプチャで優れているが、グローバルなコンテキスト推論に苦しむ畳み込みニューラルネットワークの限界に対処し、自己アテンションを通じて長距離依存をモデル化する能力のために、計算病理において急速に採用されている。
近年の病理学固有の基礎モデルでは, 大規模プレトレーニングを活用することにより, さらなる性能向上が図られている。
しかし、標準のViTは本質的には回転や反射のような組織像のユビキタスな変化である変換と等価ではない。
この制限に対処するために、同変畳み込みカーネルをViTアーキテクチャのパッチ埋め込みステージに統合し、学習表現に内蔵された回転同値を与えるEqui-ViTを提案する。
Equi-ViTは、画像方向をまたいだ良好な回転整合パッチ埋め込みと安定した分類性能を実現する。
この結果から,同変パッチの組込みがデータ効率とロバスト性を高めることが示唆され,同変トランスフォーマーは,デジタル病理基盤モデルなどの病理組織学へのViTの適用において,より一般化可能なバックボーンとして機能する可能性が示唆された。
関連論文リスト
- Interpreting vision transformers via residual replacement model [8.97847158738423]
ビジョントランスフォーマー(ViT)はどのように世界を表現するのか?
本稿は、すべての層にまたがる6.6K機能の最初の体系的解析を通じて、この長年にわたる問題に対処する。
残差ストリームの解釈可能な特徴をViT計算に置き換える残差置換モデルを提案する。
論文 参考訳(メタデータ) (2025-09-22T07:00:57Z) - Set Transformer Architectures and Synthetic Data Generation for Flow-Guided Nanoscale Localization [13.521075124606973]
Flow-guided Localization (FGL) は、診断上の関心事を含む人体内の空間領域の同定を可能にする。
既存のFGLソリューションは、固定トポロジや手作りの機能を備えたグラフモデルに依存しており、解剖学的変数への適応性を制限し、スケーラビリティを妨げている。
本定式化は,ナノデバイスにおける循環時間レポートを非順序集合として扱い,空間的先行時間に依存することなく,置換不変な可変長入力処理を可能にする。
論文 参考訳(メタデータ) (2025-08-22T08:22:25Z) - Embedding Radiomics into Vision Transformers for Multimodal Medical Image Classification [10.627136212959396]
ビジョントランスフォーマー(ViT)は、自己注意を通じて長距離依存をモデル化することで、畳み込みモデルの強力な代替手段を提供する。
本稿では、放射能特徴とデータ駆動型視覚埋め込みをViTバックボーン内に組み込んだRE-ViT(Radiomics-Embedded Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2025-04-15T06:55:58Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Adaptive Transformers for Robust Few-shot Cross-domain Face
Anti-spoofing [71.06718651013965]
我々は、堅牢なクロスドメイン顔アンチスプーフィングのための適応型視覚変換器(ViT)を提案する。
私たちはVTをバックボーンとして採用し、その強度を利用して画素間の長距離依存を考慮します。
いくつかのベンチマークデータセットの実験では、提案されたモデルが堅牢かつ競合的なパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2022-03-23T03:37:44Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Roto-Translation Equivariant Convolutional Networks: Application to
Histopathology Image Analysis [11.568329857588099]
畳み込みネットワークにおける特殊ユークリッド運動群SE(2)の幾何学的構造を符号化する枠組みを提案する。
提案手法を用いることで,一貫した性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2020-02-20T13:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。