論文の概要: MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy
- arxiv url: http://arxiv.org/abs/2602.24222v1
- Date: Fri, 27 Feb 2026 17:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.542038
- Title: MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy
- Title(参考訳): MuViT:顕微鏡による大規模学習のための多解像変換器
- Authors: Albert Dominguez Mantes, Gioele La Manno, Martin Weigert,
- Abstract要約: 我々は、同じ基盤画像から真のマルチ解像度観測を融合するために構築されたトランスフォーマーアーキテクチャであるMuViTを紹介する。
合成ベンチマーク、腎臓病理、高分解能マウス脳顕微鏡などを通じて、MuViTは強力なViTおよびCNNベースラインよりも一貫した改善を行っている。
- 参考スコア(独自算出の注目度): 1.9116784879310027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern microscopy routinely produces gigapixel images that contain structures across multiple spatial scales, from fine cellular morphology to broader tissue organization. Many analysis tasks require combining these scales, yet most vision models operate at a single resolution or derive multi-scale features from one view, limiting their ability to exploit the inherently multi-resolution nature of microscopy data. We introduce MuViT, a transformer architecture built to fuse true multi-resolution observations from the same underlying image. MuViT embeds all patches into a shared world-coordinate system and extends rotary positional embeddings to these coordinates, enabling attention to integrate wide-field context with high-resolution detail within a single encoder. Across synthetic benchmarks, kidney histopathology, and high-resolution mouse-brain microscopy, MuViT delivers consistent improvements over strong ViT and CNN baselines. Multi-resolution MAE pretraining further produces scale-consistent representations that enhance downstream tasks. These results demonstrate that explicit world-coordinate modelling provides a simple yet powerful mechanism for leveraging multi-resolution information in large-scale microscopy analysis.
- Abstract(参考訳): 現代の顕微鏡は、微細な細胞形態からより広い組織組織まで、複数の空間スケールにまたがる構造を含むギガピクセル画像を日常的に生成する。
多くの解析タスクはこれらのスケールを組み合わせる必要があるが、ほとんどの視覚モデルは単一の解像度で操作するか、ある視点から複数のスケールの特徴を導出し、顕微鏡データの本質的な多重解像度の性質を利用する能力を制限している。
我々は、同じ基盤画像から真のマルチ解像度観測を融合するために構築されたトランスフォーマーアーキテクチャであるMuViTを紹介する。
MuViTは、すべてのパッチを共有ワールドコーディネートシステムに埋め込み、回転位置埋め込みをこれらの座標に拡張し、単一エンコーダ内で高解像度のディテールで広視野コンテキストを統合できるようにする。
合成ベンチマーク、腎臓病理、高分解能マウス脳顕微鏡などを通じて、MuViTは強力なViTおよびCNNベースラインよりも一貫した改善を行っている。
マルチレゾリューションMAEプリトレーニングはさらに、下流タスクを強化するスケール一貫性のある表現を生成する。
これらの結果は, 大規模顕微鏡解析において, 多解像度情報を活用するための簡易かつ強力な機構を, 明示的な世界座標モデリングによって実現していることを示している。
関連論文リスト
- Uni-AIMS: AI-Powered Microscopy Image Analysis [28.24402780080126]
高品質な注釈付きデータセットを生成するデータエンジンを開発する。
本研究では,小物体と大物体の両方を頑健に検出できるセグメンテーションモデルを提案する。
我々のソリューションは、画像スケールバーの精度の高い自動認識を支援する。
論文 参考訳(メタデータ) (2025-05-11T09:35:53Z) - Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization [45.99713338249702]
メソスコピックレベルは、マクロと顕微鏡の世界の間の橋渡しとして機能し、両者が見落としているギャップに対処する。
そこで本研究では,IMLのためのマイクロおよびマクロ情報のメソスコピック表現を同時に構築する方法について検討する。
私たちのモデルは、パフォーマンス、計算複雑性、堅牢性の観点から、現在の最先端のモデルを超えています。
論文 参考訳(メタデータ) (2024-12-18T11:43:41Z) - ZoomLDM: Latent Diffusion Model for multi-scale image generation [57.639937071834986]
複数のスケールで画像を生成するための拡散モデルZoomLDMを提案する。
我々のアプローチの中心は、自己教師あり学習(SSL)埋め込みを利用した、新たな拡大対応条件付け機構である。
ZoomLDMは、コンテキスト的に正確であり、異なるズームレベルで詳細なコヒーレントな病理像を合成する。
論文 参考訳(メタデータ) (2024-11-25T22:39:22Z) - CViT: Continuous Vision Transformer for Operator Learning [24.1795082775376]
連続ビジョントランスフォーマー(Continuous Vision Transformer、CViT)は、コンピュータビジョンの進歩を活用して複雑な物理システムを学ぶ際の課題に対処する、新しい神経オペレーターアーキテクチャである。
CViTは、ビジョントランスフォーマーエンコーダ、新しいグリッドベースの座標埋め込み、マルチスケール依存関係を効果的にキャプチャするクエリワイドのクロスアテンション機構を組み合わせたものである。
本研究では, 流体力学, 気候モデル, 反応拡散過程を含む多種多様な偏微分方程式(PDE)システムにおけるCViTの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-22T21:13:23Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Increasing a microscope's effective field of view via overlapped imaging
and machine learning [4.23935174235373]
この研究は、高効率自動検体分析のために単一のセンサー上で複数の独立した視野を重畳するマルチレンズ顕微鏡イメージングシステムを示す。
論文 参考訳(メタデータ) (2021-10-10T22:52:36Z) - LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution
Homography Estimation [52.63874513999119]
クロスレゾリューション画像アライメントは、マルチスケールギガ撮影において重要な問題である。
既存のディープ・ホモグラフィー手法は、それらの間の対応の明示的な定式化を無視し、クロスレゾリューションの課題において精度が低下する。
本稿では,マルチモーダル入力間の対応性を明確に学習するために,マルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:51:45Z) - Global Voxel Transformer Networks for Augmented Microscopy [54.730707387866076]
本稿では,拡張顕微鏡のための高度な深層学習ツールであるグローバルボクセルトランスフォーマーネットワーク(GVTNets)を紹介する。
GVTNetはグローバルな情報収集が可能なグローバルなボクセル変換演算子(GVTO)上に構築されている。
提案手法を既存のデータセットに適用し,様々な環境下での3種類の拡張顕微鏡タスクについて検討する。
論文 参考訳(メタデータ) (2020-08-05T20:11:15Z) - Multi-element microscope optimization by a learned sensing network with
composite physical layers [3.2435888122704037]
デジタル顕微鏡は、コンピュータアルゴリズムによる自動解釈のために画像をキャプチャするために使用される。
本研究では,複数の顕微鏡設定を協調的に最適化する手法と分類ネットワークについて検討する。
ネットワークの低分解能顕微鏡画像(20X-comparable)は、対応する高分解能画像の分類性能に匹敵する十分なコントラストを有する機械学習ネットワークを提供することを示す。
論文 参考訳(メタデータ) (2020-06-27T16:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。