論文の概要: VQ-Seg: Vector-Quantized Token Perturbation for Semi-Supervised Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2601.10124v1
- Date: Thu, 15 Jan 2026 07:09:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.027033
- Title: VQ-Seg: Vector-Quantized Token Perturbation for Semi-Supervised Medical Image Segmentation
- Title(参考訳): VQ-Seg : 半監督型医用画像分割のためのベクトル量子トケン摂動
- Authors: Sicheng Yang, Zhaohu Xing, Lei Zhu,
- Abstract要約: 本稿では,ベクトル量子化(VQ)を用いた特徴空間の離散化のための最初の手法であるVQ-Segを提案し,ドロップアウトを置き換える新しい量子摂動モジュール(QPM)を提案する。
我々のQPMは、コードブックインデックスの空間的位置をシャッフルすることで、離散表現を摂動させ、有効かつ制御可能な正規化を可能にします。
中心型肺癌に対するCT828例の大規模肺がんデータセットを収集した。
- 参考スコア(独自算出の注目度): 19.35191098558586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consistency learning with feature perturbation is a widely used strategy in semi-supervised medical image segmentation. However, many existing perturbation methods rely on dropout, and thus require a careful manual tuning of the dropout rate, which is a sensitive hyperparameter and often difficult to optimize and may lead to suboptimal regularization. To overcome this limitation, we propose VQ-Seg, the first approach to employ vector quantization (VQ) to discretize the feature space and introduce a novel and controllable Quantized Perturbation Module (QPM) that replaces dropout. Our QPM perturbs discrete representations by shuffling the spatial locations of codebook indices, enabling effective and controllable regularization. To mitigate potential information loss caused by quantization, we design a dual-branch architecture where the post-quantization feature space is shared by both image reconstruction and segmentation tasks. Moreover, we introduce a Post-VQ Feature Adapter (PFA) to incorporate guidance from a foundation model (FM), supplementing the high-level semantic information lost during quantization. Furthermore, we collect a large-scale Lung Cancer (LC) dataset comprising 828 CT scans annotated for central-type lung carcinoma. Extensive experiments on the LC dataset and other public benchmarks demonstrate the effectiveness of our method, which outperforms state-of-the-art approaches. Code available at: https://github.com/script-Yang/VQ-Seg.
- Abstract(参考訳): 特徴摂動を伴う一貫性学習は、半教師付き医療画像セグメンテーションにおいて広く使われている戦略である。
しかし、多くの既存の摂動法はドロップアウトに依存しており、これは敏感なハイパーパラメータであり、しばしば最適化が困難であり、最適な準正則化につながる可能性がある、ドロップアウト率を慎重に手動で調整する必要がある。
この制限を克服するため、VQ-Segはベクトル量子化(VQ)を用いて特徴空間を離散化し、ドロップアウトを置き換える新しい制御可能な量子摂動モジュール(QPM)を導入する。
我々のQPMは、コードブックインデックスの空間的位置をシャッフルすることで、離散表現を摂動させ、有効かつ制御可能な正規化を可能にします。
量子化による潜在的な情報損失を軽減するために、画像再構成とセグメント化の両方によって、後量子化特徴空間が共有されるデュアルブランチアーキテクチャを設計する。
さらに、ファンデーションモデル(FM)からのガイダンスを取り入れたPFA(Post-VQ Feature Adapter)を導入し、量子化時に失われた高レベルな意味情報を補完する。
さらに, 中心型肺癌に注記した828個のCT画像から, 大規模肺癌(LC)データセットを収集した。
LCデータセットおよび他の公開ベンチマークに関する大規模な実験は、我々の手法の有効性を示し、最先端の手法よりも優れている。
コードは、https://github.com/script-Yang/VQ-Seg.comで公開されている。
関連論文リスト
- Saccadic Vision for Fine-Grained Visual Classification [10.681604440788854]
きめ細かい視覚分類(FGVC)は、微妙で局所的な特徴によって視覚的に類似したカテゴリーを区別する必要がある。
既存のパートベースの手法は、ピクセルからサンプル空間へのマッピングを学習する複雑なローカライゼーションネットワークに依存している。
本稿では,まず周辺特徴を抽出し,サンプルマップを生成する2段階プロセスを提案する。
我々は、周辺と焦点の表現を融合する前に、各固定パッチの影響を定量的に評価するために、文脈選択的注意を用いる。
論文 参考訳(メタデータ) (2025-09-19T07:03:37Z) - FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。
ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文 参考訳(メタデータ) (2025-06-13T07:57:38Z) - FMaMIL: Frequency-Driven Mamba Multi-Instance Learning for Weakly Supervised Lesion Segmentation in Medical Images [24.941922708432212]
FMaMILは画像レベルのラベルのみに基づく弱教師付き病変分割のための2段階のフレームワークである。
最初の段階では、MILパラダイムの下で画像パッチ間の長距離依存関係をキャプチャするために、軽量なMambaベースのエンコーダが導入された。
空間感度と構造意識を高めるため,周波数領域符号化モジュールを設計し,空間領域の特徴をスペクトル情報で補う。
第2段階では、CAM誘導ソフトラベル監視と自己補正機構により、初期擬似ラベルを洗練し、ラベルノイズ下においても堅牢なトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-06-09T11:18:02Z) - Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - SpaRG: Sparsely Reconstructed Graphs for Generalizable fMRI Analysis [8.489318619991534]
深層学習は、精神疾患や個人の特徴に関連する静止状態機能型磁気共鳴イメージング(rsfMRI)のパターンを明らかにするのに役立つ。
しかし、深層学習の発見を解釈する問題は、fMRIによる分析よりも明らかではない。
スパーシフィケーションと自己超越に基づくこれらの課題を緩和するための簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-24T18:35:57Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Learning Representations for CSI Adaptive Quantization and Feedback [51.14360605938647]
本稿では,周波数分割二重化システムにおける適応量子化とフィードバックの効率的な手法を提案する。
既存の研究は主に、CSI圧縮のためのオートエンコーダ(AE)ニューラルネットワークの実装に焦点を当てている。
1つはポストトレーニング量子化に基づくもので、もう1つはAEのトレーニング中にコードブックが見つかる方法である。
論文 参考訳(メタデータ) (2022-07-13T08:52:13Z) - Mixed-UNet: Refined Class Activation Mapping for Weakly-Supervised
Semantic Segmentation with Multi-scale Inference [28.409679398886304]
我々は、デコードフェーズに2つの並列分岐を持つMixed-UNetという新しいモデルを開発する。
地域病院や公開データセットから収集したデータセットに対して,いくつかの一般的なディープラーニングに基づくセグメンテーションアプローチに対して,設計したMixed-UNetを評価した。
論文 参考訳(メタデータ) (2022-05-06T08:37:02Z) - DSU-net: Dense SegU-net for automatic head-and-neck tumor segmentation
in MR images [30.747375849126925]
MRIにおける鼻咽頭癌(NPC)分類のためのDense SegU-net(DSU-net)フレームワークを提案する。
潜在的な消滅段階的問題に対処するために,特徴の伝播と再利用を容易にする高密度ブロックを導入する。
提案するアーキテクチャは,既存の最先端セグメンテーションネットワークよりも優れている。
論文 参考訳(メタデータ) (2020-06-11T09:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。