論文の概要: When an Image is Worth 1,024 x 1,024 Words: A Case Study in
Computational Pathology
- arxiv url: http://arxiv.org/abs/2312.03558v1
- Date: Wed, 6 Dec 2023 15:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 14:38:16.185105
- Title: When an Image is Worth 1,024 x 1,024 Words: A Case Study in
Computational Pathology
- Title(参考訳): 画像が1024 x 1,024ワードである場合:計算病理学のケーススタディ
- Authors: Wenhui Wang, Shuming Ma, Hanwen Xu, Naoto Usuyama, Jiayu Ding, Hoifung
Poon, Furu Wei
- Abstract要約: LongViTは、ギガピクセル画像をエンドツーエンドで処理できるビジョントランスフォーマーである。
我々は,Gigapixel全スライディング画像中の癌診断と予後を目的とし,LongViTを計算病理学の分野に適用した。
- 参考スコア(独自算出の注目度): 104.84650391675054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report presents LongViT, a vision Transformer that can process
gigapixel images in an end-to-end manner. Specifically, we split the gigapixel
image into a sequence of millions of patches and project them linearly into
embeddings. LongNet is then employed to model the extremely long sequence,
generating representations that capture both short-range and long-range
dependencies. The linear computation complexity of LongNet, along with its
distributed algorithm, enables us to overcome the constraints of both
computation and memory. We apply LongViT in the field of computational
pathology, aiming for cancer diagnosis and prognosis within gigapixel
whole-slide images. Experimental results demonstrate that LongViT effectively
encodes gigapixel images and outperforms previous state-of-the-art methods on
cancer subtyping and survival prediction. Code and models will be available at
https://aka.ms/LongViT.
- Abstract(参考訳): この技術レポートは、ギガピクセル画像をエンドツーエンドで処理できるビジョントランスフォーマーであるLongViTを提示する。
具体的には、ギガピクセル画像を数百万のパッチに分割し、それらを線形に埋め込みに投影する。
ロングネットは極端に長いシーケンスのモデル化に使われ、短距離と長距離の両方の依存関係をキャプチャする表現を生成する。
LongNetの線形計算複雑性は、分散アルゴリズムとともに、計算とメモリの両方の制約を克服することができる。
我々は,Gigapixel全スライディング画像中の癌診断と予後を目的とし,LongViTを計算病理学の分野に適用した。
実験の結果、LongViTはギガピクセル画像を効果的にエンコードし、がんのサブタイプと生存予測に関する過去の最先端手法より優れていることが示された。
コードとモデルはhttps://aka.ms/LongViT.comで入手できる。
関連論文リスト
- MGI: Multimodal Contrastive pre-training of Genomic and Medical Imaging [16.325123491357203]
本稿では,下流タスクにゲノムと医用画像を併用したマルチモーダル事前学習フレームワークを提案する。
我々は,マンバを遺伝子エンコーダとして,ビジョントランスフォーマー(ViT)を医用画像エンコーダとして組み合わせた,自己指導型コントラスト学習アプローチを用いて医用画像と遺伝子を調整した。
論文 参考訳(メタデータ) (2024-06-02T06:20:45Z) - Vivim: a Video Vision Mamba for Medical Video Segmentation [52.11785024350253]
本稿では、医用ビデオセグメンテーションタスクのためのビデオビジョンマンバベースのフレームワークVivimを提案する。
我々のビビムは、長期表現を様々なスケールのシーケンスに効果的に圧縮することができる。
超音波検査では甲状腺分節,乳房病変分節,大腸内視鏡検査ではポリープ分節が有効で有効であった。
論文 参考訳(メタデータ) (2024-01-25T13:27:03Z) - Towards Optimal Patch Size in Vision Transformers for Tumor Segmentation [2.4540404783565433]
転移性大腸癌(mCRC)における腫瘍の検出は,肝癌の早期診断と治療において重要な役割を担っている。
完全畳み込みニューラルネットワーク(FCNN)によってバックボンドされたディープラーニングモデルは、3Dコンピュータ断層撮影(CT)スキャンのセグメンテーションにおいて支配的なモデルとなっている。
視覚変換器は、FCNNの受容野の局所性を解決するために導入された。
本稿では,転移病変の平均体積サイズに基づいて,視覚変換器の最適入力多重解像度画像パッチサイズを選択する手法を提案する。
論文 参考訳(メタデータ) (2023-08-31T09:57:27Z) - Accurate Gigapixel Crowd Counting by Iterative Zooming and Refinement [90.76576712433595]
GigaZoomは画像の最も密度の高い領域を反復的にズームし、より詳細な粗い密度マップを洗練します。
ギガZoomは,ギガピクセルの群衆計数のための最先端技術を取得し,次のベストメソッドの精度を42%向上させることを示す。
論文 参考訳(メタデータ) (2023-05-16T08:25:27Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - Memory-efficient GAN-based Domain Translation of High Resolution 3D
Medical Images [0.15092198588928965]
GAN(Generative Adversarial Network)は大規模な3次元医療画像にはほとんど適用されない。
本研究は、未ペアドメイン翻訳を確立するためのマルチスケールパッチベースのGANアプローチを提案する。
ドメイン翻訳シナリオの評価は155x240x240の脳MRIと最大512x512x512の胸部CTで行う。
論文 参考訳(メタデータ) (2020-10-06T08:43:27Z) - SAFRON: Stitching Across the Frontier for Generating Colorectal Cancer
Histology Images [2.486942181212742]
合成画像は、データの限られた可用性という文脈でディープラーニングアルゴリズムの開発と評価に使用することができる。
本研究では,現実的で高解像度な組織画像タイルを構築するための新しいSAFRONフレームワークを提案する。
提案手法は,比較的小さな画像パッチでトレーニングした後,任意の大きさのリアルな画像タイルを生成することができることを示す。
論文 参考訳(メタデータ) (2020-08-11T05:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。