論文の概要: Hierarchical Vision Transformers for Context-Aware Prostate Cancer
Grading in Whole Slide Images
- arxiv url: http://arxiv.org/abs/2312.12619v1
- Date: Tue, 19 Dec 2023 21:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:36:24.693680
- Title: Hierarchical Vision Transformers for Context-Aware Prostate Cancer
Grading in Whole Slide Images
- Title(参考訳): スライド画像全体における前立腺癌診断のための階層的視覚トランスフォーマー
- Authors: Cl\'ement Grisi, Geert Litjens, Jeroen van der Laak
- Abstract要約: 階層型視覚変換器 (H-ViTs) は計算病理学において有望な解である。
この研究はH-ViTsの能力を掘り下げ、WSIsにおける前立腺がんのグレーディングの効率を評価する。
- 参考スコア(独自算出の注目度): 5.661964429245856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have ushered in a new era in computer vision,
showcasing unparalleled performance in many challenging tasks. However, their
practical deployment in computational pathology has largely been constrained by
the sheer size of whole slide images (WSIs), which result in lengthy input
sequences. Transformers faced a similar limitation when applied to long
documents, and Hierarchical Transformers were introduced to circumvent it.
Given the analogous challenge with WSIs and their inherent hierarchical
structure, Hierarchical Vision Transformers (H-ViTs) emerge as a promising
solution in computational pathology. This work delves into the capabilities of
H-ViTs, evaluating their efficiency for prostate cancer grading in WSIs. Our
results show that they achieve competitive performance against existing
state-of-the-art solutions.
- Abstract(参考訳): ビジョントランスフォーマー (ViT) はコンピュータビジョンの新しい時代を迎え、多くの課題において非並列的な性能を示している。
しかし、それらの計算病理学への実践的な展開は、スライド画像全体(WSI)の重大さに大きく制約されており、結果として長い入力シーケンスが得られる。
変換器は長い文書に適用すると同様の制限に直面し、階層変換器はそれを回避するために導入された。
WSIとそれら固有の階層構造との類似性を考えると、階層型視覚変換器(H-ViT)は計算病理学において有望な解である。
この研究はH-ViTsの能力を掘り下げ、WSIsにおける前立腺がんのグレーディングの効率を評価する。
その結果,既存の最先端ソリューションとの競合性能が得られた。
関連論文リスト
- SAG-ViT: A Scale-Aware, High-Fidelity Patching Approach with Graph Attention for Vision Transformers [0.0]
マルチスケール機能を統合することでこの問題に対処する新しいフレームワークであるSAG-ViT(Scale-Aware Graph Attention Vision Transformer)を紹介した。
EfficientNetをバックボーンとして使用し、マルチスケールの特徴マップを抽出し、セマンティック情報を保存するためにパッチに分割する。
SAG-ViTは、ベンチマークデータセットに基づいて評価され、画像分類性能を向上させる効果を示す。
論文 参考訳(メタデータ) (2024-11-14T13:15:27Z) - Vision Transformer for Action Units Detection [11.479653866646762]
本稿では,行動単位検出(AU)の課題に対処するためのビジョントランスフォーマーに基づくアプローチを提案する。
我々はビデオビジョン変換器(ViViT)ネットワークを用いて、映像の時間的顔の変化を捉える。
我々のモデルはABAW 2023チャレンジのベースラインモデルよりも優れており、結果として顕著な14%の違いがある。
論文 参考訳(メタデータ) (2023-03-16T13:43:02Z) - A New Perspective to Boost Vision Transformer for Medical Image
Classification [33.215289791017064]
本稿では,トランスフォーマーバックボーンを用いた医用画像分類のための自己教師付き学習手法を提案する。
我々のBOLTは、自己教師型表現学習のための2つのネットワーク、すなわちオンラインとターゲットのブランチで構成されています。
医療画像分類におけるBOLTの優位性は,ImageNetの事前学習量や最先端の自己教師型学習手法と比較して検証した。
論文 参考訳(メタデータ) (2023-01-03T07:45:59Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - A ConvNet for the 2020s [94.89735578018099]
ビジョントランスフォーマー(ViT)は、最先端の画像分類モデルとしてすぐにConvNetsに取って代わった。
これは、いくつかのConvNetプリエントを再導入した階層型トランスフォーマーであり、トランスフォーマーは一般的なビジョンバックボーンとして実用的である。
本研究では、設計空間を再検討し、純粋なConvNetが達成できることの限界をテストする。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。