論文の概要: Adaptive Patching for High-resolution Image Segmentation with Transformers
- arxiv url: http://arxiv.org/abs/2404.09707v1
- Date: Mon, 15 Apr 2024 12:06:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 12:30:43.251331
- Title: Adaptive Patching for High-resolution Image Segmentation with Transformers
- Title(参考訳): 変換器を用いた高分解能画像分割のための適応パッチ
- Authors: Enzhi Zhang, Isaac Lyngaas, Peng Chen, Xiao Wang, Jun Igarashi, Yuankai Huo, Mohamed Wahib, Masaharu Munetomo,
- Abstract要約: 注意に基づくモデルは、セグメンテーションを含む画像分析の領域で増加している。
トランスフォーマーエンコーダにイメージを供給する標準的な方法は、イメージをパッチに分割し、トークンの線形シーケンスとしてモデルにパッチを供給することである。
顕微鏡病理画像などの高解像度画像では、セグメンテーションで好まれる小さなパッチサイズを使用する場合、二次計算とメモリコストは注意に基づくモデルの使用を禁止している。
我々はHPCのAdapative Mesh Refinement(AMR)法から着想を得た。
- 参考スコア(独自算出の注目度): 9.525013089622183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention-based models are proliferating in the space of image analytics, including segmentation. The standard method of feeding images to transformer encoders is to divide the images into patches and then feed the patches to the model as a linear sequence of tokens. For high-resolution images, e.g. microscopic pathology images, the quadratic compute and memory cost prohibits the use of an attention-based model, if we are to use smaller patch sizes that are favorable in segmentation. The solution is to either use custom complex multi-resolution models or approximate attention schemes. We take inspiration from Adapative Mesh Refinement (AMR) methods in HPC by adaptively patching the images, as a pre-processing step, based on the image details to reduce the number of patches being fed to the model, by orders of magnitude. This method has a negligible overhead, and works seamlessly with any attention-based model, i.e. it is a pre-processing step that can be adopted by any attention-based model without friction. We demonstrate superior segmentation quality over SoTA segmentation models for real-world pathology datasets while gaining a geomean speedup of $6.9\times$ for resolutions up to $64K^2$, on up to $2,048$ GPUs.
- Abstract(参考訳): 注意に基づくモデルは、セグメンテーションを含む画像分析の領域で増加している。
トランスフォーマーエンコーダにイメージを供給する標準的な方法は、イメージをパッチに分割し、トークンの線形シーケンスとしてモデルにパッチを供給することである。
高解像度画像の場合、例えば顕微鏡画像の場合、二次計算とメモリコストは、セグメンテーションに好適な小さなパッチサイズを使用する場合、注意に基づくモデルの使用を禁止します。
解決策は、カスタムの複雑なマルチレゾリューションモデルまたは近似アテンションスキームを使用することである。
我々は,HPCのAdapative Mesh Refinement(AMR)法からインスピレーションを得て,画像の詳細に基づいて,画像に適応的にパッチを当てることにより,モデルに供給されるパッチの数を桁違いに削減する。
この手法は無視可能なオーバーヘッドを持ち、いかなる注意ベースモデルともシームレスに動作し、すなわち、摩擦のない注意ベースモデルでも適用可能な前処理ステップである。
我々は、現実世界の病理データセットのSoTAセグメンテーションモデルよりも優れたセグメンテーション品質を示し、最大6,048ドルのGPUで6,4K^2ドルのジオ平均スピードアップ6.9\times$を得る。
関連論文リスト
- PatchScaler: An Efficient Patch-Independent Diffusion Model for Image Super-Resolution [44.345740602726345]
PatchScalerは、単一画像超解像のための効率的なパッチ非依存拡散パイプラインである。
テクスチャは、共通参照テクスチャメモリから、ターゲットパッチのテクスチャ先行を適応的に検索する。
本コードでは,定量評価と定性評価の両方において優れた性能を示し,推論を著しく高速化する。
論文 参考訳(メタデータ) (2024-05-27T13:31:46Z) - Improving Pixel-based MIM by Reducing Wasted Modeling Capability [77.99468514275185]
浅い層から低レベルの特徴を明示的に利用して画素再構成を支援する手法を提案する。
私たちの知る限りでは、等方的アーキテクチャのためのマルチレベル特徴融合を体系的に研究するのは、私たちは初めてです。
提案手法は, 微調整では1.2%, 線形探索では2.8%, セマンティックセグメンテーションでは2.6%など, 大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2023-08-01T03:44:56Z) - Cascaded Cross-Attention Networks for Data-Efficient Whole-Slide Image
Classification Using Transformers [0.11219061154635457]
全スライディングイメージングは、組織標本の高解像度画像のキャプチャとデジタル化を可能にする。
高解像度情報を効果的に活用するための候補としてトランスフォーマーアーキテクチャが提案されている。
本稿では,抽出されたパッチ数と線形にスケールするクロスアテンション機構に基づく新しいカスケード型クロスアテンションネットワーク(CCAN)を提案する。
論文 参考訳(メタデータ) (2023-05-11T16:42:24Z) - DBAT: Dynamic Backward Attention Transformer for Material Segmentation
with Cross-Resolution Patches [8.812837829361923]
クロスレゾリューション特徴を集約する動的後方アテンション変換器(DBAT)を提案する。
実験の結果,DBATの精度は86.85%であり,最先端のリアルタイムモデルの中では最高の性能であることがわかった。
さらに,提案モデルが他の手法よりも優れた材料関連特徴を抽出できることを示すため,セマンティックなラベルにアライメントし,ネットワーク分割を行う。
論文 参考訳(メタデータ) (2023-05-06T03:47:20Z) - FewGAN: Generating from the Joint Distribution of a Few Images [95.6635227371479]
本稿では,新しい,高品質で多様な画像を生成するための生成モデルFewGANを紹介する。
FewGANは、第1の粗いスケールで量子化を適用した階層的なパッチGANであり、その後、より微細なスケールで残った完全畳み込みGANのピラミッドが続く。
大規模な実験では、FewGANは定量的にも定性的にも基線より優れていることが示されている。
論文 参考訳(メタデータ) (2022-07-18T07:11:28Z) - Automatic size and pose homogenization with spatial transformer network
to improve and accelerate pediatric segmentation [51.916106055115755]
空間変換器ネットワーク(STN)を利用することにより、ポーズとスケール不変の新たなCNNアーキテクチャを提案する。
私たちのアーキテクチャは、トレーニング中に一緒に見積もられる3つのシーケンシャルモジュールで構成されています。
腹部CTスキャナーを用いた腎および腎腫瘍の分節法について検討した。
論文 参考訳(メタデータ) (2021-07-06T14:50:03Z) - An End-to-End Breast Tumour Classification Model Using Context-Based
Patch Modelling- A BiLSTM Approach for Image Classification [19.594639581421422]
我々は, この関係を, 特定の腫瘍領域から抽出したパッチ間の特徴に基づく相関関係と統合しようと試みている。
我々は、顕微鏡画像とWSI腫瘍領域の2つのデータセットでモデルをトレーニングし、テストした。
CNN機能付きBiLSTMは、パッチをエンドツーエンドの画像分類ネットワークにモデル化する上で、はるかに優れた性能を示した。
論文 参考訳(メタデータ) (2021-06-05T10:43:58Z) - BoundarySqueeze: Image Segmentation as Boundary Squeezing [104.43159799559464]
本研究では,オブジェクトとシーンの微細な高画質画像分割のための新しい手法を提案する。
形態素画像処理技術による拡張と浸食に着想を得て,画素レベルのセグメンテーション問題をスクイーズ対象境界として扱う。
提案手法は,COCO,Cityscapesのインスタンス・セグメンテーション・セグメンテーション・セグメンテーションにおいて大きく向上し,同一条件下での精度・速度ともに従来のPointRendよりも優れていた。
論文 参考訳(メタデータ) (2021-05-25T04:58:51Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - SegFix: Model-Agnostic Boundary Refinement for Segmentation [75.58050758615316]
既存のセグメンテーションモデルによって生成されるセグメンテーション結果の境界品質を改善するためのモデルに依存しない後処理方式を提案する。
内部画素のラベル予測がより信頼性が高いという実証的な観察により、我々は、内部画素の予測によって、もともと信頼できない境界画素の予測を置き換えることを提案する。
論文 参考訳(メタデータ) (2020-07-08T17:08:08Z) - Unsupervised Community Detection with a Potts Model Hamiltonian, an
Efficient Algorithmic Solution, and Applications in Digital Pathology [1.6506888719932784]
本稿では,各色特徴に基づく入力画像画素の高速な統計的ダウンサンプリングと,セグメント関係を考慮したポッツモデルエネルギーの最小化手法を提案する。
特に腎疾患における腎糸球体微小環境のセグメンテーションにおいて,医用顕微鏡画像のセグメンテーションに本法の応用を実証した。
論文 参考訳(メタデータ) (2020-02-05T01:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。