論文の概要: Dynamic Weight Adjustment for Knowledge Distillation: Leveraging Vision Transformer for High-Accuracy Lung Cancer Detection and Real-Time Deployment
- arxiv url: http://arxiv.org/abs/2510.20438v1
- Date: Thu, 23 Oct 2025 11:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.822361
- Title: Dynamic Weight Adjustment for Knowledge Distillation: Leveraging Vision Transformer for High-Accuracy Lung Cancer Detection and Real-Time Deployment
- Title(参考訳): 知識蒸留のための動的重量調整:高精度肺癌検出とリアルタイム展開のための視覚変換器の活用
- Authors: Saif Ur Rehman Khan, Muhammad Nabeel Asim, Sebastian Vollmer, Andreas Dengel,
- Abstract要約: FuzzyDistillViT-MobileNetモデルは肺がん(LC)分類の新しいアプローチである。
本手法は, ファジィ論理を用いて蒸留重量を動的に調整し, 生徒が高信頼領域に集中できるようにする。
教師モデルとして視覚変換器(ViT-B32)を用い,学生モデルであるMobileNetに効果的に知識を伝達する。
- 参考スコア(独自算出の注目度): 6.432534227472963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the FuzzyDistillViT-MobileNet model, a novel approach for lung cancer (LC) classification, leveraging dynamic fuzzy logic-driven knowledge distillation (KD) to address uncertainty and complexity in disease diagnosis. Unlike traditional models that rely on static KD with fixed weights, our method dynamically adjusts the distillation weight using fuzzy logic, enabling the student model to focus on high-confidence regions while reducing attention to ambiguous areas. This dynamic adjustment improves the model ability to handle varying uncertainty levels across different regions of LC images. We employ the Vision Transformer (ViT-B32) as the instructor model, which effectively transfers knowledge to the student model, MobileNet, enhancing the student generalization capabilities. The training process is further optimized using a dynamic wait adjustment mechanism that adapts the training procedure for improved convergence and performance. To enhance image quality, we introduce pixel-level image fusion improvement techniques such as Gamma correction and Histogram Equalization. The processed images (Pix1 and Pix2) are fused using a wavelet-based fusion method to improve image resolution and feature preservation. This fusion method uses the wavedec2 function to standardize images to a 224x224 resolution, decompose them into multi-scale frequency components, and recursively average coefficients at each level for better feature representation. To address computational efficiency, Genetic Algorithm (GA) is used to select the most suitable pre-trained student model from a pool of 12 candidates, balancing model performance with computational cost. The model is evaluated on two datasets, including LC25000 histopathological images (99.16% accuracy) and IQOTH/NCCD CT-scan images (99.54% accuracy), demonstrating robustness across different imaging domains.
- Abstract(参考訳): 本稿では,肺がんの新しい分類法であるFuzzyDistillViT-MobileNetモデルを提案する。
固定重み付き静的KDに依存する従来のモデルとは異なり,本手法はファジィ論理を用いて蒸留重量を動的に調整し,不明瞭な領域への注意を減らしながら高信頼領域に集中できるようにする。
この動的調整により、LC画像の異なる領域にわたる様々な不確実性レベルを扱うモデル能力が改善される。
教師モデルとして視覚変換器(ViT-B32)を用い,学生モデルであるMobileNetに効果的に知識を伝達し,生徒の一般化能力を向上させる。
さらに、トレーニング手順を適応させて収束と性能を向上させる動的待ち調整機構を用いて、トレーニングプロセスをさらに最適化する。
画像品質を向上させるため,ガンマ補正やヒストグラム等化などの画素レベルの画像融合改善技術を導入する。
処理された画像(Pix1、Pix2)はウェーブレットベースの融合法で融合し、画像解像度と特徴保存を改善する。
この融合法では、Wavedec2関数を用いて画像を224x224の解像度に標準化し、それらをマルチスケールの周波数成分に分解し、各レベルで再帰的に平均係数を算出して特徴表現を改善する。
遺伝的アルゴリズム(GA)は、12の候補のプールから最も適した事前学習された学生モデルを選択するために用いられ、モデル性能と計算コストのバランスをとる。
このモデルは、LC25000の病理像(99.16%の精度)とIQOTH/NCCD CTスキャン画像(99.54%の精度)を含む2つのデータセットで評価され、異なる画像領域にわたって堅牢性を示す。
関連論文リスト
- AI-Driven Diabetic Retinopathy Diagnosis Enhancement through Image Processing and Salp Swarm Algorithm-Optimized Ensemble Network [5.001689778344014]
糖尿病網膜症は糖尿病患者の視覚障害の主要な原因であり、早期発見は視力喪失を防ぐ重要な役割を担っている。
本稿では, 画像前処理, バックボーン事前学習モデルの選択, 特徴強調, 最適化の4段階からなるDR診断のための効果的なアンサンブル法を提案する。
提案されたモデルは、マルチクラスKaggle APTOS 2019データセットで評価され、88.52%の精度が得られた。
論文 参考訳(メタデータ) (2025-03-18T12:35:56Z) - Enhancing Low Dose Computed Tomography Images Using Consistency Training Techniques [7.694256285730863]
本稿では,雑音レベル調整の柔軟性を提供するベータノイズ分布について紹介する。
HN-iCT(High Noise Improved Consistency Training)は、教師付き方式で訓練される。
以上の結果より,HN-iCTを用いた非条件画像生成はNFE=1。
論文 参考訳(メタデータ) (2024-11-19T02:48:36Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Adaptive Input-image Normalization for Solving the Mode Collapse Problem in GAN-based X-ray Images [0.08192907805418582]
この研究は、適応入力-画像正規化をDeep Conversaal GANとAuxiliary GANと統合してモード崩壊問題を緩和する利点の実証的な実証に寄与する。
その結果, 適応入出力正規化によるDCGANとACGANは, 非正規化X線画像でDCGANとACGANより優れていた。
論文 参考訳(メタデータ) (2023-09-21T16:43:29Z) - Performance of GAN-based augmentation for deep learning COVID-19 image
classification [57.1795052451257]
ディープラーニングを医療分野に適用する上で最大の課題は、トレーニングデータの提供である。
データ拡張は、限られたデータセットに直面した時に機械学習で使用される典型的な方法論である。
本研究は, 新型コロナウイルスの胸部X線画像セットを限定して, StyleGAN2-ADAモデルを用いて訓練するものである。
論文 参考訳(メタデータ) (2023-04-18T15:39:58Z) - A Multi-Stage Attentive Transfer Learning Framework for Improving
COVID-19 Diagnosis [49.3704402041314]
新型コロナの診断を改善するための多段階集中移動学習フレームワークを提案する。
提案するフレームワークは、複数のソースタスクと異なるドメインのデータから知識を学習し、正確な診断モデルを訓練する3つの段階からなる。
本稿では,肺CT画像のマルチスケール表現を学習するための自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-01-14T01:39:19Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。