論文の概要: Covariance Descriptors Meet General Vision Encoders: Riemannian Deep Learning for Medical Image Classification
- arxiv url: http://arxiv.org/abs/2511.04190v1
- Date: Thu, 06 Nov 2025 08:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.370119
- Title: Covariance Descriptors Meet General Vision Encoders: Riemannian Deep Learning for Medical Image Classification
- Title(参考訳): Covariance Descriptors Meet General Vision Encoders: Riemannian Deep Learning for Medical Image Classification
- Authors: Josef Mayr, Anna Reithmeir, Maxime Di Folco, Julia A. Schnabel,
- Abstract要約: 共分散記述子は、画像特徴の2階統計をキャプチャする。
一般的なコンピュータビジョンのタスクでは高い性能を示してきたが、医用画像では未発見のままである。
従来型および学習型医用画像分類の有効性について検討した。
- 参考スコア(独自算出の注目度): 2.3548850165533874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Covariance descriptors capture second-order statistics of image features. They have shown strong performance in general computer vision tasks, but remain underexplored in medical imaging. We investigate their effectiveness for both conventional and learning-based medical image classification, with a particular focus on SPDNet, a classification network specifically designed for symmetric positive definite (SPD) matrices. We propose constructing covariance descriptors from features extracted by pre-trained general vision encoders (GVEs) and comparing them with handcrafted descriptors. Two GVEs - DINOv2 and MedSAM - are evaluated across eleven binary and multi-class datasets from the MedMNSIT benchmark. Our results show that covariance descriptors derived from GVE features consistently outperform those derived from handcrafted features. Moreover, SPDNet yields superior performance to state-of-the-art methods when combined with DINOv2 features. Our findings highlight the potential of combining covariance descriptors with powerful pretrained vision encoders for medical image analysis.
- Abstract(参考訳): 共分散記述子は、画像特徴の2階統計をキャプチャする。
一般的なコンピュータビジョンのタスクでは高い性能を示してきたが、医用画像では未発見のままである。
SPDNetは対称正定値行列(SPD)に特化して設計された分類ネットワークである。
本稿では,事前学習された汎用視覚エンコーダ(GVE)から抽出した特徴から共分散記述子を構築し,手書き記述子と比較する。
DINOv2とMedSAMの2つのGVEは、MedMNSITベンチマークから11のバイナリとマルチクラスのデータセットで評価されている。
以上の結果から,GVE特徴から派生した共分散記述子は,手作り特徴から派生したものよりも一貫して優れていた。
さらに、SPDNetはDINOv2機能と組み合わせることで最先端の手法よりも優れた性能が得られる。
本研究は,医用画像解析のために,共分散ディスクリプタと強力な事前学習型ビジョンエンコーダを組み合わせる可能性を強調した。
関連論文リスト
- CAVE-Net: Classifying Abnormalities in Video Capsule Endoscopy [0.1937002985471497]
複雑な画像データセットを解析する際の診断精度を向上させるために,アンサンブルに基づくアプローチを提案する。
各モデルのユニークな特徴抽出機能を活用し、全体的な精度を向上させる。
これらの手法を用いることで、提案フレームワークであるCAVE-Netは、ロバストな特徴識別と、より優れた分類結果を提供する。
論文 参考訳(メタデータ) (2024-10-26T17:25:08Z) - Dual-View Pyramid Pooling in Deep Neural Networks for Improved Medical Image Classification and Confidence Calibration [7.9558896568634845]
本稿では,DVPP(Dual-view pyramid pooling)と呼ばれる新しいプール方式を提案する。
DVPP は,SP と CCP 演算子の利点を十分に活用することにより,医用画像分類と信頼性校正性能の両立を目指している。
論文 参考訳(メタデータ) (2024-08-06T02:38:22Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Perceptual Video Coding for Machines via Satisfied Machine Ratio
Modeling [66.56355316611598]
Satisfied Machine Ratio (SMR) は、圧縮された画像やビデオの知覚的品質を評価するメトリクスである。
SMRは機械の知覚的コーディングを可能にし、機械のためのビデオ符号化を特異性から一般性まで推進する。
論文 参考訳(メタデータ) (2022-11-13T03:16:36Z) - Mixed Graph Contrastive Network for Semi-Supervised Node Classification [63.924129159538076]
我々はMixed Graph Contrastive Network(MGCN)と呼ばれる新しいグラフコントラスト学習手法を提案する。
本研究では,非摂動増強戦略と相関還元機構により,潜伏埋め込みの識別能力を向上する。
これら2つの設定を組み合わせることで、識別表現学習のために、豊富なノードと稀に価値あるラベル付きノードの両方から、豊富な監視情報を抽出する。
論文 参考訳(メタデータ) (2022-06-06T14:26:34Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Min-Max Similarity: A Contrastive Learning Based Semi-Supervised
Learning Network for Surgical Tools Segmentation [0.0]
コントラスト学習に基づく半教師付きセグメンテーションネットワークを提案する。
従来の最先端技術とは対照的に、両視点トレーニングの対照的な学習形式を導入する。
提案手法は、最先端の半教師付きおよび完全教師付きセグメンテーションアルゴリズムを一貫して上回る。
論文 参考訳(メタデータ) (2022-03-29T01:40:26Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。