論文の概要: Resolution scaling governs DINOv3 transfer performance in chest radiograph classification
- arxiv url: http://arxiv.org/abs/2510.07191v1
- Date: Wed, 08 Oct 2025 16:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.62604
- Title: Resolution scaling governs DINOv3 transfer performance in chest radiograph classification
- Title(参考訳): 胸部X線写真分類におけるDINOv3転写能の分解能スケーリングによる制御
- Authors: Soroosh Tayebi Arasteh, Mina Shaigan, Christiane Kuhl, Jakob Nikolas Kather, Sven Nebelung, Daniel Truhn,
- Abstract要約: MetaのDINOv3はGram-anchored自己蒸留を通じてSSLモデルを拡張している。
DINOv3とDINOv2とImageNetをベンチマークした。
胸部X線写真解釈のための512x512の微細な中型のバックボーンの使用を支援する。
- 参考スコア(独自算出の注目度): 2.9837095598337253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) has advanced visual representation learning, but its value in chest radiography, a high-volume imaging modality with fine-grained findings, remains unclear. Meta's DINOv3 extends earlier SSL models through Gram-anchored self-distillation. Whether these design choices improve transfer learning for chest radiography has not been systematically tested. We benchmarked DINOv3 against DINOv2 and ImageNet initialization across seven datasets (n>814,000). Two representative backbones were evaluated: ViT-B/16 and ConvNeXt-B. Images were analyzed at 224x224, 512x512, and 1024x1024 pixels. We additionally assessed frozen features from a 7B model. The primary outcome was mean AUROC across labels. At 224x224, DINOv3 and DINOv2 achieved comparable performance on adult datasets. Increasing resolution to 512x512 yielded consistent improvements for DINOv3 over both DINOv2 and ImageNet. In contrast, results in pediatric cohort showed no differences across initializations. Across all settings, ConvNeXt-B outperformed ViT-B/16. Models using frozen DINOv3-7B features underperformed relative to fully finetuned 86-89M-parameter backbones, highlighting the importance of domain adaptation. Scaling to 1024x1024 did not further improve accuracy. Resolution-related gains were most evident for boundary-dependent and small focal abnormalities. In chest radiography, higher input resolution is critical for leveraging the benefits of modern self-supervised models. 512x512 pixels represent a practical upper limit where DINOv3-initialized ConvNeXt-B networks provide the strongest performance, while larger inputs offer minimal return on cost. Clinically, these findings support use of finetuned, mid-sized backbones at 512x512 for chest radiograph interpretation, with the greatest gains expected in detecting subtle or boundary-centered lesions relevant to emergency and critical care settings.
- Abstract(参考訳): 自己教師付き学習(SSL)は、高度な視覚的表現学習を有するが、胸部X線撮影におけるその価値は、微細な所見を伴う高体積画像モダリティである。
MetaのDINOv3はGram-anchored自己蒸留を通じてSSLモデルを拡張している。
これらの設計選択が胸部X線撮影における転写学習を改善するか否かは、体系的に検証されていない。
DINOv3を7つのデータセット(n>814,000)でDINOv2とImageNetの初期化と比較した。
ViT-B/16とConvNeXt-Bの2つの代表的なバックボーンについて検討した。
画像は224x224,512x512,1024x1024ピクセルで分析された。
また、7Bモデルから凍結した特徴も評価した。
主な成果はレーベル間でのAUROCの平均値であった。
224x224で、DINOv3とDINOv2はアダルトデータセットで同等のパフォーマンスを達成した。
512x512への解像度向上により、DINOv3はDINOv2とImageNetの両方で一貫した改善がなされた。
一方,小児コホートでは初期化に差は認められなかった。
全設定で、ConvNeXt-BはViT-B/16を上回った。
凍結したDINOv3-7Bを用いたモデルでは、86-89Mパラメータのバックボーンの微細化に対して性能が低下し、ドメイン適応の重要性が強調された。
1024x1024へのスケーリングは、さらなる精度向上には至らなかった。
分解能関連利得は境界依存性と小さな局所異常が最も顕著であった。
胸部X線撮影では、近代的な自己管理モデルの利点を活用するために、高い入力解像度が重要である。
512x512ピクセルは、DINOv3初期化のConvNeXt-Bネットワークが最大のパフォーマンスを提供するのに対して、より大きな入力は最小限のコストでリターンを提供する、実用的な上限である。
臨床的には, 胸部X線写真解釈において, 512x512の微細な中型背骨の使用が望まれる。
関連論文リスト
- MOZART: Ensembling Approach for COVID-19 Detection using Chest X-Ray Imagery [0.0]
新型コロナウイルス(COVID-19)が世界的なパンデミックを引き起こし、医療システムに悪影響を及ぼした。
従来の畳み込みニューラルネットワーク(CNN)は印象的な精度を実現している。
ウイルス検出を強化するアンサンブル学習手法であるMOZARTフレームワークを導入する。
論文 参考訳(メタデータ) (2024-10-11T21:02:58Z) - WATUNet: A Deep Neural Network for Segmentation of Volumetric Sweep
Imaging Ultrasound [1.2903292694072621]
ボリューム・スイープ・イメージング(VSI)は、訓練を受けていないオペレーターが高品質な超音波画像をキャプチャできる革新的な手法である。
本稿ではWavelet_Attention_UNet(WATUNet)と呼ばれる新しいセグメンテーションモデルを提案する。
このモデルでは、簡単な接続ではなく、ウェーブレットゲート(WG)とアテンションゲート(AG)をエンコーダとデコーダの間に組み込んで、上記の制限を克服する。
論文 参考訳(メタデータ) (2023-11-17T20:32:37Z) - Higher Chest X-ray Resolution Improves Classification Performance [58.720142291102135]
本研究は胸部X線分類性能に及ぼすトレーニング解像度の影響について検討した。
その結果,高解像度,特に1024×1024ピクセルのトレーニングにより,全体分類性能が向上した。
論文 参考訳(メタデータ) (2023-06-09T17:21:52Z) - Performance of GAN-based augmentation for deep learning COVID-19 image
classification [57.1795052451257]
ディープラーニングを医療分野に適用する上で最大の課題は、トレーニングデータの提供である。
データ拡張は、限られたデータセットに直面した時に機械学習で使用される典型的な方法論である。
本研究は, 新型コロナウイルスの胸部X線画像セットを限定して, StyleGAN2-ADAモデルを用いて訓練するものである。
論文 参考訳(メタデータ) (2023-04-18T15:39:58Z) - Negligible effect of brain MRI data preprocessing for tumor segmentation [36.89606202543839]
我々は3つの公開データセットの実験を行い、ディープニューラルネットワークにおける異なる前処理ステップの効果を評価する。
その結果、最も一般的な標準化手順は、ネットワーク性能に何の価値も与えないことが示されている。
画像の規格化に伴う信号分散の低減のため,画像強度正規化手法はモデル精度に寄与しない。
論文 参考訳(メタデータ) (2022-04-11T17:29:36Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Automated Methods for Detection and Classification Pneumonia based on
X-Ray Images Using Deep Learning [0.0]
Resnet50, MobileNet_V2, Inception_Resnet_V2の微調整版では, トレーニングや検証精度の向上率(精度の96%以上)で高い良好な性能を示した。
CNN、Xception、VGG16、VGG19、Inception_V3、DenseNet201とは異なり、性能は低い(84%以上の精度)。
論文 参考訳(メタデータ) (2020-03-31T16:48:27Z) - An interpretable classifier for high-resolution breast cancer screening
images utilizing weakly supervised localization [45.00998416720726]
医用画像の特徴に対処する枠組みを提案する。
このモデルはまず、画像全体の低容量だがメモリ効率のよいネットワークを使用して、最も情報性の高い領域を識別する。
次に、選択したリージョンから詳細を収集するために、別の高容量ネットワークを適用します。
最後に、グローバルおよびローカル情報を集約して最終的な予測を行うフュージョンモジュールを使用する。
論文 参考訳(メタデータ) (2020-02-13T15:28:42Z) - CNN-CASS: CNN for Classification of Coronary Artery Stenosis Score in
MPR Images [0.0]
MPR画像における狭窄の重症度を同定する自動モデルを開発した。
このモデルは3つのクラスのうちの1つを予測している: 正常の'no stenosis'、検出された'non-significant' - 1-50%の狭窄、'significant' - 50%以上の狭窄。
狭窄スコア分類では, 従来の検査結果と比較して, 80%の精度で精度が向上した。
論文 参考訳(メタデータ) (2020-01-23T15:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。