論文の概要: Less is More in Semantic Space: Intrinsic Decoupling via Clifford-M for Fundus Image Classification
- arxiv url: http://arxiv.org/abs/2603.20806v1
- Date: Sat, 21 Mar 2026 13:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.094006
- Title: Less is More in Semantic Space: Intrinsic Decoupling via Clifford-M for Fundus Image Classification
- Title(参考訳): セマンティック空間のより少ない部分:ファンドス画像分類のためのClifford-Mによる本質的なデカップリング
- Authors: Yifeng Zheng,
- Abstract要約: フィードフォワード展開と周波数分割モジュールを疎幾何学的相互作用で置き換える軽量バックボーンであるClifford-Mを提案する。
プリトレーニングなしでは、Clifford-M は平均 AUC-ROC が 0.8142 で、平均マクロF1 が 0.5481 で、ODIR-5K は 0.85M のパラメータしか持たない。
- 参考スコア(独自算出の注目度): 13.23226865033351
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-label fundus diagnosis requires features that capture both fine-grained lesions and large-scale retinal structure. Many multi-scale medical vision models address this challenge through explicit frequency decomposition, but our ablation studies show that such heuristics provide limited benefit in this setting: replacing the proposed simple dual-resolution stem with Octave Convolution increased parameters by 35% and computation by a 2.23-fold increase in computation; without improving mean accuracy, while a fixed wavelet-based variant performed substantially worse. Motivated by these findings, we propose Clifford-M, a lightweight backbone that replaces both feed-forward expansion and frequency-splitting modules with sparse geometric interaction. The model is built on a Clifford-style rolling product that jointly captures alignment and structural variation with linear complexity, enabling efficient cross-scale fusion and self-refinement in a compact dual-resolution architecture. Without pre-training, Clifford-M achieves a mean AUC-ROC of 0.8142 and a mean macro-F1 (optimal threshold) of 0.5481 on ODIR-5K using only 0.85M parameters, outperforming substantially larger mid-scale CNN baselines under the same training protocol. When evaluated on RFMiD without fine-tuning, it attains 0.7425 +/- 0.0198 macro AUC and 0.7610 +/- 0.0344 micro AUC, indicating reasonable robustness to cross-dataset shift. These results suggest that competitive and efficient fundus diagnosis can be achieved without explicit frequency engineering, provided that the core feature interaction is designed to capture multi-scale structure directly.
- Abstract(参考訳): マルチラベルの眼底診断には、微細な病変と大規模な網膜構造の両方を捉える機能が必要である。
マルチスケールの医療ビジョンモデルの多くは、明確な周波数分解によってこの問題に対処するが、我々のアブレーション研究では、このようなヒューリスティックスは、単純な二重解像度のステムをOcave Convolutionに置き換えることでパラメータを35%増加させ、2.23倍の計算で計算し、平均精度を向上することなく、固定ウェーブレットベースの変種が著しく悪化する、という、この設定において限られた利益をもたらすことを示した。
これらの知見に触発されたClifford-Mは、フィードフォワード展開と周波数分割モジュールを疎幾何学的相互作用で置き換える軽量なバックボーンである。
このモデルはクリフォード式圧延製品上に構築され、線形複雑度とアライメントと構造変化を共同で捉え、コンパクトな二重解像度アーキテクチャにおいて効率的なクロススケール融合と自己精製を可能にする。
事前トレーニングなしでは、Clifford-M は平均 AUC-ROC が 0.8142 であり、ODIR-5K 上の平均マクロ F1 は 0.5481 であり、パラメータは 0.85M しかなく、同じトレーニングプロトコルの下では、かなり大きな中規模 CNN ベースラインより優れている。
RFMiDで微調整なしで評価すると、0.7425 +/- 0.0198マクロAUCと0.7610 +/- 0.0344マイクロAUCとなり、データセット間のシフトに対して合理的な堅牢性を示す。
これらの結果は,コア機能間相互作用がマルチスケール構造を直接捕捉するように設計されていることを前提として,明示的な周波数工学を使わずに,競合的かつ効率的な根底診断が可能であることを示唆している。
関連論文リスト
- A Heterogeneous Ensemble for Multi-Center COVID-19 Classification from Chest CT Scans [0.39998518782208775]
3つの推論パラダイムにまたがる9つのモデルの異種アンサンブルを示す。
アンサンブルは4つの病院センターで平均0.9280のマクロF1を達成し、最高のシングルモデルを上回っている。
論文 参考訳(メタデータ) (2026-03-15T21:34:59Z) - ECG-RAMBA: Zero-Shot ECG Generalization by Morphology-Rhythm Disentanglement and Long-Range Modeling [0.6875312133832079]
ECG-RAMBAは、形態学とリズムを分離し、文脈認識融合を通じてそれらを再統合するフレームワークである。
PTB-XLで一貫したクロスデータセット性能を示す。
論文 参考訳(メタデータ) (2025-12-29T10:14:52Z) - Fixed-Budget Parameter-Efficient Training with Frozen Encoders Improves Multimodal Chest X-Ray Classification [0.0]
マルチモーダル胸部X線分析は、しばしば計算コストのかかる大きな視覚言語モデルを微調整する。
我々は,インディアナ大学チェストX線データセットのマルチラベル分類のための冷凍エンコーダ,BitFit,LoRA,アダプタなど,パラメータ効率のよいトレーニング戦略について検討した。
論文 参考訳(メタデータ) (2025-12-25T05:02:19Z) - Cancer-Net PCa-MultiSeg: Multimodal Enhancement of Prostate Cancer Lesion Segmentation Using Synthetic Correlated Diffusion Imaging [55.62977326180104]
前立腺癌病変の分節化に対する近年の深層学習アプローチは,限られた性能を達成している。
本稿では,標準拡散型プロトコルの拡張として,合成相関拡散イメージング(CDI$s$)について検討する。
以上の結果から,PCa病変セグメント化タスクの実践的ドロップイン強化として,CDI$s$に対する検証済み統合経路が確立された。
論文 参考訳(メタデータ) (2025-11-11T04:16:12Z) - CoT-X: An Adaptive Framework for Cross-Model Chain-of-Thought Transfer and Optimization [5.857877898558651]
CoT(Chain-of-Thought)推論は、大規模言語モデル(LLM)の問題解決能力を高めるが、かなりの推論オーバーヘッドをもたらす。
本稿では、適応的推論要約フレームワークを用いて、異なるスケールとアーキテクチャのモデル間での効率的なCoT転送について検討する。
論文 参考訳(メタデータ) (2025-11-07T22:35:31Z) - GroupKAN: Rethinking Nonlinearity with Grouped Spline-based KAN Modeling for Efficient Medical Image Segmentation [7.1160000610859635]
GroupKANは、2つの新しい構造化機能モジュールを組み込んだ軽量セグメンテーションネットワークである。
グループカンは平均79.80%のIoUを達成し、U-KANを1.1%上回り、パラメータの47.6%しか必要としない。
論文 参考訳(メタデータ) (2025-11-07T18:39:09Z) - Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning [73.10669391954801]
本稿では、Ring-mini-linear-2.0およびRing-flash-linear-2.0を含むRing-linearモデルシリーズについて述べる。
どちらのモデルも線形アテンションとソフトマックスアテンションを効果的に統合するハイブリッドアーキテクチャを採用している。
32億のパラメータ密度モデルと比較して、このシリーズは推論コストを1/10に削減し、元のRingシリーズと比較すると、コストも50%以上削減される。
論文 参考訳(メタデータ) (2025-10-22T07:59:38Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - Squeezeformer: An Efficient Transformer for Automatic Speech Recognition [99.349598600887]
Conformerは、そのハイブリッドアテンション・コンボリューションアーキテクチャに基づいて、様々な下流音声タスクの事実上のバックボーンモデルである。
Squeezeformerモデルを提案する。これは、同じトレーニングスキームの下で、最先端のASRモデルよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-06-02T06:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。