論文の概要: VariViT: A Vision Transformer for Variable Image Sizes
- arxiv url: http://arxiv.org/abs/2602.14615v1
- Date: Mon, 16 Feb 2026 10:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.367982
- Title: VariViT: A Vision Transformer for Variable Image Sizes
- Title(参考訳): VariViT: 可変画像サイズのための視覚変換器
- Authors: Aswathi Varma, Suprosanna Shit, Chinmay Prabhakar, Daniel Scholz, Hongwei Bran Li, Bjoern Menze, Daniel Rueckert, Benedikt Wiestler,
- Abstract要約: 視覚変換器(ViT)は、表現学習における最先端のアーキテクチャとして登場した。
ViTはイメージを固定サイズパッチに分割し、事前に定義されたサイズに制限し、リサイズ、パディング、トリミングといった前処理ステップを必要とする。
可変画像サイズを一貫したパッチサイズを維持しながら処理する改良型ViTモデルであるVariViTを提案する。
- 参考スコア(独自算出の注目度): 19.721932776618964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have emerged as the state-of-the-art architecture in representation learning, leveraging self-attention mechanisms to excel in various tasks. ViTs split images into fixed-size patches, constraining them to a predefined size and necessitating pre-processing steps like resizing, padding, or cropping. This poses challenges in medical imaging, particularly with irregularly shaped structures like tumors. A fixed bounding box crop size produces input images with highly variable foreground-to-background ratios. Resizing medical images can degrade information and introduce artefacts, impacting diagnosis. Hence, tailoring variable-sized crops to regions of interest can enhance feature representation capabilities. Moreover, large images are computationally expensive, and smaller sizes risk information loss, presenting a computation-accuracy tradeoff. We propose VariViT, an improved ViT model crafted to handle variable image sizes while maintaining a consistent patch size. VariViT employs a novel positional embedding resizing scheme for a variable number of patches. We also implement a new batching strategy within VariViT to reduce computational complexity, resulting in faster training and inference times. In our evaluations on two 3D brain MRI datasets, VariViT surpasses vanilla ViTs and ResNet in glioma genotype prediction and brain tumor classification. It achieves F1-scores of 75.5% and 76.3%, respectively, learning more discriminative features. Our proposed batching strategy reduces computation time by up to 30% compared to conventional architectures. These findings underscore the efficacy of VariViT in image representation learning. Our code can be found here: https://github.com/Aswathi-Varma/varivit
- Abstract(参考訳): 視覚変換器(ViT)は表現学習における最先端のアーキテクチャとして登場し、自己認識機構を利用して様々なタスクを遂行している。
ViTはイメージを固定サイズパッチに分割し、事前に定義されたサイズに制限し、リサイズ、パディング、トリミングといった前処理ステップを必要とする。
これは医用画像、特に腫瘍のような不規則な形をした構造において、課題となる。
固定バウンディングボックスクロップサイズは、フォアグラウンドとバックグラウンドの比率が高度に可変な入力画像を生成する。
医療画像の縮小は、情報を劣化させ、アーティファクトを導入し、診断に影響を及ぼす。
したがって、変数サイズの作物を興味のある領域に合わせることで、特徴表現能力を高めることができる。
さらに、大きな画像は計算コストが高く、サイズが小さくなり、計算精度のトレードオフが生じる。
可変画像サイズを一貫したパッチサイズを維持しながら処理する改良型ViTモデルであるVariViTを提案する。
VariViTは、異なる数のパッチに対して、新しい位置埋め込みリサイズ方式を採用している。
また、VariViT内に新しいバッチ戦略を実装し、計算複雑性を減らし、より高速なトレーニングと推論時間を実現する。
VariViTは2つの脳MRIデータセットの評価において、グリオーマの遺伝子型予測と脳腫瘍分類においてバニラ ViTs と ResNet を上回った。
それぞれ75.5%と76.3%のF1スコアを獲得し、より差別的な特徴を学習している。
提案手法は,従来のアーキテクチャに比べて計算時間を最大30%削減する。
これらの結果は,画像表現学習におけるVariViTの有効性を裏付けるものである。
私たちのコードはここにある。 https://github.com/Aswathi-Varma/varivit
関連論文リスト
- Embedding Radiomics into Vision Transformers for Multimodal Medical Image Classification [10.627136212959396]
ビジョントランスフォーマー(ViT)は、自己注意を通じて長距離依存をモデル化することで、畳み込みモデルの強力な代替手段を提供する。
本稿では、放射能特徴とデータ駆動型視覚埋め込みをViTバックボーン内に組み込んだRE-ViT(Radiomics-Embedded Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2025-04-15T06:55:58Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - Delving into Masked Autoencoders for Multi-Label Thorax Disease
Classification [16.635426201975587]
ビジョントランスフォーマー (ViT) は、データハングリーの性質と注釈付き医療データの欠如により、医療タスクにおける畳み込みニューラルネットワーク (CNN) に劣る性能を示した。
本稿では,266,340個の胸部X線をMasked Autoencoders (MAE) で事前トレーニングし,各画像の小さな部分から失明画素を再構成する。
以上の結果から,VTは多ラベル胸部疾患分類のための最先端CNN (DenseNet-121) と相容れない(時折良い)ことが示唆された。
論文 参考訳(メタデータ) (2022-10-23T20:14:57Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Conviformers: Convolutionally guided Vision Transformer [5.964436882344729]
本稿では,草本シートから植物を細粒度に分類するシステムを開発するための重要な要素を詳細に分析し,解説する。
Conviformerと呼ばれる畳み込みトランスアーキテクチャを導入し、一般的なVision Transformer(ConViT)とは異なり、メモリや計算コストを犠牲にすることなく高解像度画像を処理できる。
単純だが効果的なアプローチで、Herbarium 202xとiNaturalist 2019データセットでSoTAを達成しました。
論文 参考訳(メタデータ) (2022-08-17T13:09:24Z) - PatchDropout: Economizing Vision Transformers Using Patch Dropout [9.243684409949436]
入力画像パッチをランダムにドロップすることで、標準のViTモデルを高解像度で効率的に訓練できることを示す。
我々はPatchDropoutを使って計算とメモリの5倍の節約と性能の向上を観察する。
論文 参考訳(メタデータ) (2022-08-10T14:08:55Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。